проблема - ProgramBox

#python #nltk #tokenize

#python #nltk #маркировать

Вопрос:

это может быть простой вопрос, но я застрял здесь, не совсем уверен, что пошло не так.

df[‘text’] содержит текстовые данные, с которыми я хочу работать

     text_sents=df.text

tokens = []
for uni in text_sents:
    tok=TweetTokenizer(uni)
    tokens.append(tok)

print(tokens)

и он возвращает

[<nltk.tokenize.casual.Объект TweetTokenizer в 0x7f80216950a0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f8022278670>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7fec0bbc 70>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf74970>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf747c0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf74a90>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf748b0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e520>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e070>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e0d0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e130>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e190>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e1c0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e250>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e2e0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e310>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e370>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e3d0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e430>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e490>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e4f0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e5b0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e640>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e6d0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e730>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e790>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e7f0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e880>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e8b0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e5e0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e940>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7e9d0>, <nltk.tokenize.casual.Объект TweetTokenizer в 0x7f7febf7ea00>…

не уверен, что с этим делать, может ли это быть как-то связано со значениями N / A?

Ответ №1:

TweetTokenizer() является конструктором класса TweetTokenizer и, следовательно, возвращает объект tokenizer . Затем вы должны вызвать tokenizer.tokenize(sentence) :

 tokenizer=TweetTokenizer() 
for uni in text_sents:
    tok = tokenizer.tokenize(uni)
    tokens.append(tok)

print(tokens)

Вопрос:

Ответ №1:

Вам также может понравиться

Подстановочный знак Mosquitto > 1,5 уровня доступа пользователя

почему мой текст не отображается на моем фоновом изображении?

Время ожидания запроса IIS wfastcgi django через 100 секунд, как увеличить его?