Как рассчитать пропорции темы LDA (с выборкой Гиббса) (по документам) в пакете topicmodels в R?

#r #dplyr #lda #tidytext #topicmodels

Вопрос:

Я смог рассчитать пропорции темы для подходящей модели LDA из пакета topicmodels в R, используя гамма-матрицу, как из VEM, так и из фиксированных методов выборки VEM. Однако, когда дело доходит до выборки Гиббса, когда я делаю то же самое для вычисления пропорций темы, то есть использую функции tidytext и slice_max для обработки гамма-матрицы, она дает структуру данных с гораздо большим количеством документов, чем Матрица терминов документа, используемая в качестве входных данных. В частности, существует 27599 документов (фактически предварительно обработанных твитов), и он возвращает более или менее 41 тысячу списков с наиболее частыми темами для каждого документа. Когда я делаю это для других 2 матриц, он возвращает список, содержащий ровно 27599 элементов, в соответствии с размером предоставленных данных. Все гамма-матрицы равны по размерам (VEM, фиксированный VEM, Гиббс). Что я здесь упускаю?

Вопрос:

Вам также может понравиться

Как заставить Google Таблицы (Google Финансы) показывать сегодняшнее значение закрытия

Невозможно применить класс к определенному URL-адресу

как подключить jdbc к hive с помощью java в ubuntu?