Разница между функциями для нахождения оптимального количества тем k (stm)

#r #topic-modeling

#r #тема-моделирование

Вопрос:

(удивительный) stm пакет содержит несколько функций для выбора оптимального количества тем в модели тем (k). Две из этих функций — searchK() и manyTopics() .

Их описания в документации заставляют их звучать очень похоже: https://cran.r-project.org/web/packages/stm/stm.pdf

searchK() : «При заданной пользователем инициализации эта функция запускает selectModel для разных заданных пользователем номеров тем и вычисляет диагностические свойства для возвращенной модели. К ним относятся эксклюзивность, семантическая согласованность, вероятность удержания, привязка, привязка и остаточная дисперсия.»

manyTopics() : «Работает так же, как selectModel [для которого searchK() является оболочкой], за исключением того, что пользователь указывает диапазон количества тем, для которых они хотят, чтобы модель была установлена. Например, модели с 5, 10 и 15 темами. Затем для каждого количества тем selectModel запускается несколько раз.»

Из того, что я могу сказать, одно отличие может заключаться в том, что manyTopics() автоматически выбирает доминирующую модель Парето для каждого выбора k, тогда searchK() как предположительно позволяет пользователю выбирать между ними, учитывая k. (Однако я не видел никаких примеров того, как на самом деле это сделать, или почему кто-то хотел бы.)

Есть ли на самом деле разница, и если да, то для каких целей следует использовать каждую функцию?