Почему сходство по косинусу намного выше между одним документом и всеми другими сгруппированными документами, чем по сравнению со средним значением каждого

#r #cosine-similarity

#r #сходство по косинусу

Вопрос:

Я пытаюсь рассчитать оценку сходства по косинусу для выступлений разных политиков.

Допустим, у меня есть политик А, который принадлежит к партии А. В партии А есть 20 других политиков, которые выступили в общей сложности с 50 речами (документами).

Теперь я хочу рассчитать сходство косинуса речи каждого из политиков с остальными выступлениями его / ее собственной партии.

Я аналогичным образом вычисляю косинус между выступлениями политика A (если у политика A более одной речи, я сворачиваю их в одну речь) и всеми другими выступлениями от той же партии и беру среднее значение. Затем я делаю это со следующим политиком, пока не сделаю это со всеми. В конце концов, моя оценка лежит в диапазоне 0,02 — 0,06 для каждого политика.

Вместо этого, если я возьму речь участника A — политика A и сведу их все в одну длинную речь, а затем вычислю сходство по косинусу между речью политика A и другой «длинной» речью участника A (состоящей из всех выступлений политиков из этой партии, кроме речи политика A), изатем сделайте это для них всех, оценка находится в диапазоне 0,17 — 0,4

Почему это так? Имеет ли это смысл? По сути, разница:

Речь А сравнивается со всеми выступлениями (отдельно) от участника А, с последующим вычислением среднего значения всех баллов. То же самое делается для всех выступлений (речь B .. C … D .. E и т. Д.) Таким образом, оценка ниже в диапазоне от 0,02 до 0,06 для каждого политика

против

Речь A (за которой следует B .. C .. D и т. Д.) По сравнению с одной длинной речью участника A. Таким образом, оценка выше в диапазоне от 0,17 до 0,4 для каждого политика

Надеюсь, это имеет смысл

Комментарии:

1. , A , и B , и, возможно, использо вать некоторые обозначения псевдокода? Я C думаю , что вы хотите сказать, что . Это верно? Или, если нет, можете ли вы использовать какие-то четкие обозначе ния, подобн ые этому? Трудно точно понять, что вы имеете в виду, такие предложения, как mean(cos_sim(A, B), cos_sim(A, C)) < cos_sim(A, concat(B, C)) «Речь А по сравнению со всеми выступлениями (отдельно) от участника А, с последующим вычислением среднего значения всех баллов» .

2.

3. Я мало что знаю о сходстве по косинусу. Я бы настоятельно рекомендовал отредактировать ваш вопрос — удалить большую часть изложения, которое там есть, и представить его кратко и четко, как в вашем последнем комментарии. Я думаю, вы получите помощь намного быстрее, если люди смогут быстро прочитать и понять ваш вопрос.