Детокенизация возвращает "ошибку типа" с плавающей точкой найдена ожидаемая строка

#python #nltk #tokenize

#python #nltk #маркировать

Вопрос:

У меня есть набор маркированных обучающих данных для моей модели, которые изначально выглядели так :

  sucks how one over can ruin everything  💀
 thank you my love!!!!  😙

Но после небольшой предварительной обработки я пришел к этому.

    [['sucks', 'how', 'one', 'over', 'can', 'ruin', 'everything', -0.208],
    ['thank', 'you', 'my', 'love', '!', '!', '!', 0.791]]

Код для токенизации :

 temp = []
for tweet in tweets :
    temp.append(tokenizer.tokenize(tweet))

Смайлики были заменены на их оценку настроений, но вызывают у меня проблемы с детокенизацией.
Я перепробовал все другие подобные ответы, но каждый из них дает :

Ошибка типа: элемент последовательности 23: ожидаемый экземпляр str, найден float

Кто-нибудь, пожалуйста, может что-нибудь предложить? (Данные были помечены с помощью Tweet Tokenizer)

1. Можете ли вы показать код, который вы используете для токенизации?

2. Да, поэтому у меня есть мои «твиты» (pandas. Серия), а затем я делаю temp = [] для твита в твитах: temp.append(tokenizer.tokenize(tweet))

3. Какова цель токенизации? Разбить на слова, знаки препинания / символы и смайлики?

4. Да, чтобы убрать знаки препинания, замените каждый смайлик на его оценку настроения

5. Если два разных смайлика имеют одинаковую оценку настроения, как вы планируете детокенизировать?

Детокенизация возвращает «ошибку типа» с плавающей точкой найдена ожидаемая строка

Вопрос:

Комментарии:

Вопрос:

Комментарии:

Вам также может понравиться

Swift 3 небезопасная инициализация указателя для C типа float**

iphone sdk: разбейте китайское предложение на слова и буквы

Как извлечь интервал / диапазон строк из сжатого файла?