Существует ли правило для определения размера словаря для анализа настроений с массивными наборами данных?

#python #machine-learning #nlp

#python #машинное обучение #nlp

Вопрос:

Я буду проводить анализ настроений в художественной литературе. Я буду работать примерно с 300 книгами по 350 страниц. Могу ли я ограничить размер словаря, игнорируя менее частые слова? Если да, то каково правило для определения размера?

Ответ №1:

Я не верю, что существует какое-либо такое «правило». Если вы планируете использовать глубокое обучение, я думаю, что единственным ограничивающим фактором является количество слов, с которыми вы можете позволить себе тренироваться из-за нехватки памяти / времени. Но вы можете получить максимальную точность, ограничившись подмножеством наиболее распространенных слов. Я думаю, что около 50000 слов было бы разумным началом, если вы имеете дело с одним языком. Оттуда вы можете увеличить размер словаря, если вам нужна лучшая производительность.