Основы кластеризации документов

#cluster-analysis #document #k-means

#кластерный анализ #документ #k-означает

Вопрос:

Итак, я некоторое время размышлял над этими концепциями, и мое понимание очень простое. Поиск информации, по-видимому, является темой, редко освещаемой в дикой природе…

Мои вопросы проистекают из процесса кластеризации документов. Допустим, я начинаю с подборки документов, содержащих только интересные слова. Каков здесь первый шаг? Разобрать слова из каждого документа и создать гигантскую модель типа «мешок слов»? Должен ли я затем перейти к созданию векторов количества слов для каждого документа? Как мне сравнить эти документы, используя что-то вроде кластеризации K-средних?

Ответ №1:

Для начала попробуйте Tf-idf.
Если вы читаете Python, посмотрите «Кластеризация текстовых документов с использованием MiniBatchKMeans» в scikit-learn:
«пример, показывающий, как scikit-learn можно использовать для кластеризации документов по темам, используя подход «набора слов».
Тогда feature_extraction/text.py в исходном коде есть очень хорошие классы.