#r #cosine-similarity
#r #сходство по косинусу
Вопрос:
Я пытаюсь рассчитать оценку сходства по косинусу для выступлений разных политиков.
Допустим, у меня есть политик А, который принадлежит к партии А. В партии А есть 20 других политиков, которые выступили в общей сложности с 50 речами (документами).
Теперь я хочу рассчитать сходство косинуса речи каждого из политиков с остальными выступлениями его / ее собственной партии.
Я аналогичным образом вычисляю косинус между выступлениями политика A (если у политика A более одной речи, я сворачиваю их в одну речь) и всеми другими выступлениями от той же партии и беру среднее значение. Затем я делаю это со следующим политиком, пока не сделаю это со всеми. В конце концов, моя оценка лежит в диапазоне 0,02 — 0,06 для каждого политика.
Вместо этого, если я возьму речь участника A — политика A и сведу их все в одну длинную речь, а затем вычислю сходство по косинусу между речью политика A и другой «длинной» речью участника A (состоящей из всех выступлений политиков из этой партии, кроме речи политика A), изатем сделайте это для них всех, оценка находится в диапазоне 0,17 — 0,4
Почему это так? Имеет ли это смысл? По сути, разница:
Речь А сравнивается со всеми выступлениями (отдельно) от участника А, с последующим вычислением среднего значения всех баллов. То же самое делается для всех выступлений (речь B .. C … D .. E и т. Д.) Таким образом, оценка ниже в диапазоне от 0,02 до 0,06 для каждого политика
против
Речь A (за которой следует B .. C .. D и т. Д.) По сравнению с одной длинной речью участника A. Таким образом, оценка выше в диапазоне от 0,17 до 0,4 для каждого политика
Надеюсь, это имеет смысл
Комментарии:
1. ,
A
, иB
, и, возможно, использо вать некоторые обозначения псевдокода? ЯC
думаю , что вы хотите сказать, что . Это верно? Или, если нет, можете ли вы использовать какие-то четкие обозначе ния, подобн ые этому? Трудно точно понять, что вы имеете в виду, такие предложения, какmean(cos_sim(A, B), cos_sim(A, C)) < cos_sim(A, concat(B, C))
«Речь А по сравнению со всеми выступлениями (отдельно) от участника А, с последующим вычислением среднего значения всех баллов» .2.
3. Я мало что знаю о сходстве по косинусу. Я бы настоятельно рекомендовал отредактировать ваш вопрос — удалить большую часть изложения, которое там есть, и представить его кратко и четко, как в вашем последнем комментарии. Я думаю, вы получите помощь намного быстрее, если люди смогут быстро прочитать и понять ваш вопрос.