выберите наилучший показатель согласованности для модели LDA

#python #gensim #lda #topic-modeling

#python #gensim #lda #тема -моделирование

Вопрос:

Я использую пакет python Gensim для построения модели LDA (https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#:~:text=Topic Modeling with Gensim (Python)amp;text=Topic Modeling is a technique,in the Python’s Gensim package)

Чтобы выбрать наилучшее количество тем в LDA, я рассчитал показатель согласованности для (1-20) тем, а затем визуализировал его

     def compute_coherence_values(dictionary, corpus, texts, limit, start=1, step=1):
    coherence_values = []
    model_list = []
    for num_topics in range(start, limit, step):
        lda_model_coh = gensim.models.ldamodel.LdaModel(corpus=corpus, num_topics=num_topics, id2word=id2word, per_word_topics=True,update_every=1,
                                           chunksize=100,random_state=80,
                                           passes=10,
                                           alpha='auto')
        model_list.append(lda_model_coh)
        coherence_model_lda = CoherenceModel(model=lda_model_coh, texts=data_words_nostops, dictionary=id2word, coherence='c_v')
        coherence_values.append(coherence_model_lda.get_coherence())

    return model_list, coherence_values

model_list, coherence_values = compute_coherence_values(dictionary=id2word, corpus=corpus, texts=data_words_nostops, start=1, limit=21, step=1)
print(coherence_values)
  

вывод :

[0.6110807023750182, 0.623346262237542, 0.611190819343431,
0.6150879617345366, 0.6661056841233617, 0.6460622418348893, 0.6684570240561849, 0.6603704258720786, 0.6781376351229919, 0.6686810583507139, 0.6704931154541898, 0.6209832171172912, 0.6223242456220992, 0.583528787158143, 0.5672411886488239, 0.5485767400671002, 0.5603438856884889, 0.538775236148759, 0.5424604528457801, 0.536498799229393]

оценка согласованности / номера тем][1]

Как показано на диаграмме, значение показателя согласованности является наивысшим значением при значении 10. Но когда я визуализирую это с помощью карт межтопических расстояний, я обнаружил, что темы переполнены, а совпадения между тем огромны. Итак, я визуализирую это, используя темы 5 и 7. карта межтопических расстояний2 Я не уверен, какое количество тем лучше выбрать. Мой вопрос в том, как выбрать наилучшее значение согласованности. рекомендация scintfic reference будет для меня хорошим подспорьем.
[1]: https://i.stack.imgur.com/ltqrC.png