Как извлечь категории из коротких текстовых документов?

#nlp #cluster-analysis #text-mining #topic-modeling

#nlp #кластерный анализ #интеллектуальный анализ текста #тема-моделирование

Вопрос:

Мои данные содержат ответы на открытый вопрос: каковы причины рекомендовать организацию, в которой вы работаете?

Я хочу использовать алгоритм / технику, которая, используя эти данные, изучает категории (то есть причины), которые встречаются наиболее часто, и чтобы новый ответ на этот вопрос мог быть автоматически помещен в одну из этих категорий.

Изначально я думал о тематическом моделировании (например, LDA), но текстовые документы в этой задаче очень короткие (в основном от 1 до 10 слов на документ). Следовательно, это подходящий метод? Или есть другие модели, которые подходят для этого? Возможно, кластерный метод?

Примечание: текст на голландском

Ответ №1:

Нет, кластеризация будет работать еще хуже.

Это не может творить чудеса.

Для решения этой проблемы вам потребуется ввести дополнительную информацию, такую как метки — используйте классификацию.

Найдите наиболее распространенные термины, которые четко указывают на ту или иную причину, и начните помечать публикации.