#nlp #cluster-analysis #text-mining #topic-modeling
#nlp #кластерный анализ #интеллектуальный анализ текста #тема-моделирование
Вопрос:
Мои данные содержат ответы на открытый вопрос: каковы причины рекомендовать организацию, в которой вы работаете?
Я хочу использовать алгоритм / технику, которая, используя эти данные, изучает категории (то есть причины), которые встречаются наиболее часто, и чтобы новый ответ на этот вопрос мог быть автоматически помещен в одну из этих категорий.
Изначально я думал о тематическом моделировании (например, LDA), но текстовые документы в этой задаче очень короткие (в основном от 1 до 10 слов на документ). Следовательно, это подходящий метод? Или есть другие модели, которые подходят для этого? Возможно, кластерный метод?
Примечание: текст на голландском
Ответ №1:
Нет, кластеризация будет работать еще хуже.
Это не может творить чудеса.
Для решения этой проблемы вам потребуется ввести дополнительную информацию, такую как метки — используйте классификацию.
Найдите наиболее распространенные термины, которые четко указывают на ту или иную причину, и начните помечать публикации.