#r #topic-modeling
#r #тема-моделирование
Вопрос:
(удивительный) stm
пакет содержит несколько функций для выбора оптимального количества тем в модели тем (k). Две из этих функций — searchK()
и manyTopics()
.
Их описания в документации заставляют их звучать очень похоже: https://cran.r-project.org/web/packages/stm/stm.pdf
searchK()
: «При заданной пользователем инициализации эта функция запускает selectModel для разных заданных пользователем номеров тем и вычисляет диагностические свойства для возвращенной модели. К ним относятся эксклюзивность, семантическая согласованность, вероятность удержания, привязка, привязка и остаточная дисперсия.»
manyTopics()
: «Работает так же, как selectModel [для которого searchK()
является оболочкой], за исключением того, что пользователь указывает диапазон количества тем, для которых они хотят, чтобы модель была установлена. Например, модели с 5, 10 и 15 темами. Затем для каждого количества тем selectModel запускается несколько раз.»
Из того, что я могу сказать, одно отличие может заключаться в том, что manyTopics()
автоматически выбирает доминирующую модель Парето для каждого выбора k, тогда searchK()
как предположительно позволяет пользователю выбирать между ними, учитывая k. (Однако я не видел никаких примеров того, как на самом деле это сделать, или почему кто-то хотел бы.)
Есть ли на самом деле разница, и если да, то для каких целей следует использовать каждую функцию?