#gensim #lda #topic-modeling
Вопрос:
Я пытаюсь понять, какие соображения принимаются во внимание, когда Gensim ldamodel устанавливает вероятности тем для документа.
Основное соображение, о котором я могу подумать, — это сумма вероятностей слов документа в рамках темы, но мои результаты почти не показывают корреляции между вероятностью документа и суммой вероятностей слов.
Я нигде не мог найти объяснений, кто-нибудь может помочь?
Например:
Учитывая приведенный ниже документ и темы #0/#4, я ожидал бы, что тема #4 получит более высокую вероятность, но это не так
Document:
['result', 'throw', 'tremendous', 'act', 'accompany', 'lot', '**positive**', '**quality**', 'commitment', 'soldier', 'courage', 'loyalty']
Topics:
(0, '0.115*"woman" 0.088*"mother" 0.060*"succeed" 0.055*"right" 0.049*"place" 0.034*"year" 0.032*"different" 0.027*"work" 0.026*"ability" 0.025*"success"')
(4, '0.069*"**positive**" 0.064*"**quality**" 0.047*"choose" 0.034*"try" 0.032*"world" 0.029*"eye" 0.027*"trait" 0.026*"goal" 0.025*"desire" 0.025*"imaginary"')
model.get_document_topics(corpus[doc index], minimum_probability=0.00001):
[**(0, 0.31286123)**, (1, 0.005129181), (2, 0.08206084), (3, 0.005129181), **(4, 0.23428485)**, (5, 0.0051291874)…]