сделайте тему Mallet-моделирование стабильным

#nlp #topic-modeling #mallet

#nlp #тема-моделирование #молоток

Вопрос:

Я использую инструмент для моделирования темы mallet и испытываю некоторые трудности с его стабильностью (темы, которые я получаю, кажутся не очень логичными).

Я работал с вашим руководством и этим: https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet и у меня есть несколько вопросов по этому поводу:

  1. Есть ли какие-то рекомендации для того, чтобы заставить эту модель работать? Кроме команды оптимизировать (какое подходящее число для этого)? Какое хорошее число для команды итераций?
  2. Я импортирую свои данные с помощью команды import dir. В этом каталоге находятся мои файлы. Имеет ли значение, содержат ли эти файлы текст с новыми строками или просто очень длинную строку?
  3. Я читал о модели hLDA. Когда я попытался запустить его, я увидел, что единственным результатом является state.txt вывод, который не очень понятен. Я ожидаю результата, подобного модели моделирования темы (topic_keys.txt , doc_topics.txt ) как я могу их получить?
  4. Когда я должен использовать hLDA, а не тему-моделирование?

Большое спасибо за вашу помощь!

Ответ №1:

Некоторые ссылки на хорошие практики в тематическом моделировании — это уход за тематическими моделями с Джорданом Бойдгребером и Дейвом Ньюманом и прикладное тематическое моделирование с Джорданом Бойдгребером и Юэнингом Ху.

Для оптимизации гиперпараметров --optimize-interval 20 --optimize-burn-in 50 должно быть все в порядке, похоже, он не очень чувствителен к конкретным значениям. Сходимость для выборки Гиббса трудно оценить, 1000 итераций по умолчанию следует интерпретировать как «число, достаточно большое, чтобы оно, вероятно, было в порядке», а не конкретное значение.

Если вы читаете отдельные документы из файлов в каталоге, строки не имеют значения. Если документы длиннее примерно 1000 токенов до удаления стоп-слова, рассмотрите возможность разбиения их на более мелкие сегменты.

hLDA включен только потому, что люди, похоже, этого хотят, я не рекомендую его ни для каких целей.