#python #cluster-analysis #gensim #lda #cosine-similarity
Вопрос:
Я оценил множество моделей LDA с разными номерами тем, но на основе одного и того же корпуса. Всего существует 17 моделей с номерами тем, начиная с 10, вплоть до 90, каждая с постепенным увеличением числа тем на 5. Это дает в общей сложности 850 тем. Как мне вычислить косинусное сходство между каждой парой тем (всего 722 500)?
Вот код для первой тематической модели с 10 темами:
import numpy as np
a = np.arange(start=10, stop=91, step=5)
for i in a:
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,
id2word=id2word,
num_topics=10,
random_state=100,
update_every=1,
chunksize=100,
passes=10,
alpha='auto',
per_word_topics=True)```