#python #jupyter-notebook #nlp #word-cloud
Вопрос:
Для моего анализа настроений при использовании твитов на маратхи я работаю над проектом, в котором я пытаюсь выяснить и исследовать, как модели ML и глубокого обучения могут работать для языка с низким уровнем ресурсов. Я пытаюсь создать облако слов для визуализации частот слов в наборе данных.
Набор данных выглядит следующим образом:
Фрагмент кода word cloud, который я пробовал:
from PIL import Image
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
tweet = data.tweet[0]
print((tweet))
wordcloud = WordCloud().generate(tweet)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()
и результат выглядит так:
Результат, который я ищу, как вы можете ожидать, не соответствует ожиданиям. Как я могу создать wordcloud для набора данных маратхи. Есть ли здесь какие-либо библиотеки? Должен ли я написать сценарий создания облака word с нуля? Пожалуйста, предоставьте мне любые ресурсы и подробную информацию для этой задачи.
Комментарии:
1. Какую версию Python вы используете? И, не могли бы вы попробовать расшифровать текст в «utf-8», например
tweet = tweet.decode("utf-8")
.2. Я использую python 3.8.5 . Я пробовал это, но я получаю ошибку
AttributeError: 'str' object has no attribute 'decode'
, которую я пробовалtweet = tweet.encode("utf-8").decode("utf-8")
, дал тот же результат.