Как рассчитать косинусное сходство между темами из разных моделей lda?

#python #cluster-analysis #gensim #lda #cosine-similarity

Вопрос:

Я оценил множество моделей LDA с разными номерами тем, но на основе одного и того же корпуса. Всего существует 17 моделей с номерами тем, начиная с 10, вплоть до 90, каждая с постепенным увеличением числа тем на 5. Это дает в общей сложности 850 тем. Как мне вычислить косинусное сходство между каждой парой тем (всего 722 500)?

Вот код для первой тематической модели с 10 темами:

 import numpy as np
a = np.arange(start=10, stop=91, step=5)
for i in a:
  lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                           id2word=id2word,
                                           num_topics=10, 
                                           random_state=100,
                                           update_every=1,
                                           chunksize=100,
                                           passes=10,
                                           alpha='auto',
                                           per_word_topics=True)```