Как Gensim LdaModel определяет вероятность для документа

#gensim #lda #topic-modeling

Вопрос:

Я пытаюсь понять, какие соображения принимаются во внимание, когда Gensim ldamodel устанавливает вероятности тем для документа.

Основное соображение, о котором я могу подумать, — это сумма вероятностей слов документа в рамках темы, но мои результаты почти не показывают корреляции между вероятностью документа и суммой вероятностей слов.

Я нигде не мог найти объяснений, кто-нибудь может помочь?

Например:

Учитывая приведенный ниже документ и темы #0/#4, я ожидал бы, что тема #4 получит более высокую вероятность, но это не так

 Document:
['result', 'throw', 'tremendous', 'act', 'accompany', 'lot', '**positive**', '**quality**', 'commitment', 'soldier', 'courage', 'loyalty']

Topics:
(0, '0.115*"woman"   0.088*"mother"   0.060*"succeed"   0.055*"right"   0.049*"place"   0.034*"year"   0.032*"different"   0.027*"work"   0.026*"ability"   0.025*"success"')

(4, '0.069*"**positive**"   0.064*"**quality**"   0.047*"choose"   0.034*"try"   0.032*"world"   0.029*"eye"   0.027*"trait"   0.026*"goal"   0.025*"desire"   0.025*"imaginary"')


model.get_document_topics(corpus[doc index], minimum_probability=0.00001):

[**(0, 0.31286123)**, (1, 0.005129181), (2, 0.08206084), (3, 0.005129181), **(4, 0.23428485)**, (5, 0.0051291874)…]