#recommendation-engine
#механизм рекомендаций
Вопрос:
В рамках вычислений для генерации коэффициента корреляции Пирсона выполняется следующее вычисление:
Во второй формуле: p_a,i
— прогнозируемый рейтинг, который пользователь a дал бы элементу i
, n
— количество похожих пользователей, с которыми сравнивается, и ru,i
— рейтинг элемента i
пользователем u
.
Какое значение будет использоваться, если пользователь u
не оценил этот элемент? Я что-то здесь неправильно понял?
Ответ №1:
Согласно ссылке, предыдущие вычисления на шаге 1 алгоритма производились над набором элементов, проиндексированных от 1 до m
, где m
общее количество общих элементов.
Шаг 3 алгоритма определяет: «Чтобы найти прогноз рейтинга для конкретного пользователя для конкретного элемента, сначала выберите количество пользователей с наивысшими взвешенными показателями сходства по отношению к текущему пользователю, который оценил рассматриваемый элемент«.
Эти вычисления выполняются только при пересечении различных пользовательских наборов оцененных элементов. Вычисления выполняться не будут, если пользователь не оценил элемент.
Комментарии:
1. Таким образом, это означает, что задача выбора нескольких пользователей с наивысшими взвешенными показателями сходства (соседей)… должно повторяться k раз, где k = общее количество элементов в базе данных — количество элементов, оцененных пользователем u?
Ответ №2:
Рассчитывать результаты имеет смысл только в том случае, если оба пользователя оценили фильм. Линейную регрессию можно визуализировать как метод нахождения прямой линии с помощью двумерного графика, где одна переменная нанесена на ось X, а другая — на ось Y. Каждая комбинация оценок представлена в виде точки на евклидовой плоскости [u1_rating, u2_rating]. Поскольку вы не можете нанести на график точки, которые имеют только одно измерение, вам придется отбросить эти случаи.