Понимание коэффициента корреляции Пирсона

#recommendation-engine

#механизм рекомендаций

Вопрос:

В рамках вычислений для генерации коэффициента корреляции Пирсона выполняется следующее вычисление:

введите описание изображения здесь

Во второй формуле: p_a,i — прогнозируемый рейтинг, который пользователь a дал бы элементу i , n — количество похожих пользователей, с которыми сравнивается, и ru,i — рейтинг элемента i пользователем u .

Какое значение будет использоваться, если пользователь u не оценил этот элемент? Я что-то здесь неправильно понял?

Ответ №1:

Согласно ссылке, предыдущие вычисления на шаге 1 алгоритма производились над набором элементов, проиндексированных от 1 до m , где m общее количество общих элементов.

Шаг 3 алгоритма определяет: «Чтобы найти прогноз рейтинга для конкретного пользователя для конкретного элемента, сначала выберите количество пользователей с наивысшими взвешенными показателями сходства по отношению к текущему пользователю, который оценил рассматриваемый элемент«.

Эти вычисления выполняются только при пересечении различных пользовательских наборов оцененных элементов. Вычисления выполняться не будут, если пользователь не оценил элемент.

Комментарии:

1. Таким образом, это означает, что задача выбора нескольких пользователей с наивысшими взвешенными показателями сходства (соседей)… должно повторяться k раз, где k = общее количество элементов в базе данных — количество элементов, оцененных пользователем u?

Ответ №2:

Рассчитывать результаты имеет смысл только в том случае, если оба пользователя оценили фильм. Линейную регрессию можно визуализировать как метод нахождения прямой линии с помощью двумерного графика, где одна переменная нанесена на ось X, а другая — на ось Y. Каждая комбинация оценок представлена в виде точки на евклидовой плоскости [u1_rating, u2_rating]. Поскольку вы не можете нанести на график точки, которые имеют только одно измерение, вам придется отбросить эти случаи.