Основы кластеризации документов

#cluster-analysis #document #k-means

#кластерный анализ #документ #k-означает

Вопрос:

Итак, я некоторое время размышлял над этими концепциями, и мое понимание очень простое. Поиск информации, по-видимому, является темой, редко освещаемой в дикой природе…

Мои вопросы проистекают из процесса кластеризации документов. Допустим, я начинаю с подборки документов, содержащих только интересные слова. Каков здесь первый шаг? Разобрать слова из каждого документа и создать гигантскую модель типа «мешок слов»? Должен ли я затем перейти к созданию векторов количества слов для каждого документа? Как мне сравнить эти документы, используя что-то вроде кластеризации K-средних?

Ответ №1:

Для начала попробуйте Tf-idf.
Если вы читаете Python, посмотрите «Кластеризация текстовых документов с использованием MiniBatchKMeans» в scikit-learn:
«пример, показывающий, как scikit-learn можно использовать для кластеризации документов по темам, используя подход «набора слов».
Тогда feature_extraction/text.py в исходном коде есть очень хорошие классы.

Вопрос:

Ответ №1:

Вам также может понравиться

UpdateModel не обновляет модель с помощью ViewModel и свойства из выпадающего списка для

Целесообразно ли предоставлять шаблонный класс библиотеки?

как вы используете терминал в mac os 10 для написания и компиляции кода на c ?