Облако слов в корпусе маратхи

#python #jupyter-notebook #nlp #word-cloud

Вопрос:

https://mindurmarathi.com/b/

Для моего анализа настроений при использовании твитов на маратхи я работаю над проектом, в котором я пытаюсь выяснить и исследовать, как модели ML и глубокого обучения могут работать для языка с низким уровнем ресурсов. Я пытаюсь создать облако слов для визуализации частот слов в наборе данных.

Набор данных выглядит следующим образом:

Это твиты, извлеченные и аннотированные вручную на трех уровнях иерархических классов.

Фрагмент кода word cloud, который я пробовал:

 from PIL import Image
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
tweet = data.tweet[0]
print((tweet))
wordcloud = WordCloud().generate(tweet)

plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()
 

и результат выглядит так:

вывод облака слов

Результат, который я ищу, как вы можете ожидать, не соответствует ожиданиям. Как я могу создать wordcloud для набора данных маратхи. Есть ли здесь какие-либо библиотеки? Должен ли я написать сценарий создания облака word с нуля? Пожалуйста, предоставьте мне любые ресурсы и подробную информацию для этой задачи.

Комментарии:

1. Какую версию Python вы используете? И, не могли бы вы попробовать расшифровать текст в «utf-8», например tweet = tweet.decode("utf-8") .

2. Я использую python 3.8.5 . Я пробовал это, но я получаю ошибку AttributeError: 'str' object has no attribute 'decode' , которую я пробовал tweet = tweet.encode("utf-8").decode("utf-8") , дал тот же результат.