#cluster-analysis #document #k-means
#кластерный анализ #документ #k-означает
Вопрос:
Итак, я некоторое время размышлял над этими концепциями, и мое понимание очень простое. Поиск информации, по-видимому, является темой, редко освещаемой в дикой природе…
Мои вопросы проистекают из процесса кластеризации документов. Допустим, я начинаю с подборки документов, содержащих только интересные слова. Каков здесь первый шаг? Разобрать слова из каждого документа и создать гигантскую модель типа «мешок слов»? Должен ли я затем перейти к созданию векторов количества слов для каждого документа? Как мне сравнить эти документы, используя что-то вроде кластеризации K-средних?
Ответ №1:
Для начала попробуйте Tf-idf.
Если вы читаете Python, посмотрите «Кластеризация текстовых документов с использованием MiniBatchKMeans» в scikit-learn:
«пример, показывающий, как scikit-learn можно использовать для кластеризации документов по темам, используя подход «набора слов».
Тогда feature_extraction/text.py
в исходном коде есть очень хорошие классы.