#nlp #topic-modeling #mallet
#nlp #тема-моделирование #молоток
Вопрос:
Я использую инструмент для моделирования темы mallet и испытываю некоторые трудности с его стабильностью (темы, которые я получаю, кажутся не очень логичными).
Я работал с вашим руководством и этим: https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet и у меня есть несколько вопросов по этому поводу:
- Есть ли какие-то рекомендации для того, чтобы заставить эту модель работать? Кроме команды оптимизировать (какое подходящее число для этого)? Какое хорошее число для команды итераций?
- Я импортирую свои данные с помощью команды import dir. В этом каталоге находятся мои файлы. Имеет ли значение, содержат ли эти файлы текст с новыми строками или просто очень длинную строку?
- Я читал о модели hLDA. Когда я попытался запустить его, я увидел, что единственным результатом является state.txt вывод, который не очень понятен. Я ожидаю результата, подобного модели моделирования темы (topic_keys.txt , doc_topics.txt ) как я могу их получить?
- Когда я должен использовать hLDA, а не тему-моделирование?
Большое спасибо за вашу помощь!
Ответ №1:
Некоторые ссылки на хорошие практики в тематическом моделировании — это уход за тематическими моделями с Джорданом Бойдгребером и Дейвом Ньюманом и прикладное тематическое моделирование с Джорданом Бойдгребером и Юэнингом Ху.
Для оптимизации гиперпараметров --optimize-interval 20 --optimize-burn-in 50
должно быть все в порядке, похоже, он не очень чувствителен к конкретным значениям. Сходимость для выборки Гиббса трудно оценить, 1000 итераций по умолчанию следует интерпретировать как «число, достаточно большое, чтобы оно, вероятно, было в порядке», а не конкретное значение.
Если вы читаете отдельные документы из файлов в каталоге, строки не имеют значения. Если документы длиннее примерно 1000 токенов до удаления стоп-слова, рассмотрите возможность разбиения их на более мелкие сегменты.
hLDA включен только потому, что люди, похоже, этого хотят, я не рекомендую его ни для каких целей.