#python #nltk #tokenize
#python #nltk #маркировать
Вопрос:
У меня есть набор маркированных обучающих данных для моей модели, которые изначально выглядели так :
sucks how one over can ruin everything 💀
thank you my love!!!! 😙
Но после небольшой предварительной обработки я пришел к этому.
[['sucks', 'how', 'one', 'over', 'can', 'ruin', 'everything', -0.208],
['thank', 'you', 'my', 'love', '!', '!', '!', 0.791]]
Код для токенизации :
temp = []
for tweet in tweets :
temp.append(tokenizer.tokenize(tweet))
Смайлики были заменены на их оценку настроений, но вызывают у меня проблемы с детокенизацией.
Я перепробовал все другие подобные ответы, но каждый из них дает :
Ошибка типа: элемент последовательности 23: ожидаемый экземпляр str, найден float
Кто-нибудь, пожалуйста, может что-нибудь предложить? (Данные были помечены с помощью Tweet Tokenizer)
Комментарии:
1. Можете ли вы показать код, который вы используете для токенизации?
2. Да, поэтому у меня есть мои «твиты» (pandas. Серия), а затем я делаю temp = [] для твита в твитах: temp.append(tokenizer.tokenize(tweet))
3. Какова цель токенизации? Разбить на слова, знаки препинания / символы и смайлики?
4. Да, чтобы убрать знаки препинания, замените каждый смайлик на его оценку настроения
5. Если два разных смайлика имеют одинаковую оценку настроения, как вы планируете детокенизировать?