#python #dataframe #performance #prediction
#питон #фрейм данных #Производительность #предсказание
Вопрос:
У меня есть рамка данных с примерно 3000 записями, которая выглядит так (на самом деле существует более 20 функциональных столбцов):
item feature1 feature2 feature3 Verdict i1 0.99 0 45.6 Good i2 0.78 1 75.6 Good i3 0.69 0 NaN Good i4 0.94 1 45.6 Bad i5 0.29 0 56.6 Bad
Используя классификатор XGBoost, я предсказываю Verdict
.
Отдельно у меня есть большая рамка данных о пользователях и их рейтингах товаров. Несколько пользователей могут оценить один и тот же товар. Многие пользователи не оценивают большинство предметов. Некоторые элементы могут отсутствовать в предыдущем кадре данных.
user item rating u1 i1 0 u1 i2 0 u1 i3 1 u2 i1 1 u2 i3 0 u2 i4 0 u3 i2 1 u3 i4 1 u3 i5 1 u3 i6 1
Используя KNN и библиотеку сюрпризов, я предсказываю, какой рейтинг пользователь присвоит элементу.
Но действительно ли пользователи оценивают хорошие предметы выше, а плохие-хуже? Как я могу это проверить?
Я взял среднюю оценку за пункт и сравнил их с вердиктами для фактических значений. Но как мне выяснить, являются ли модели также согласованными? Даже если я доволен их точностью и другими показателями, есть ли способ сравнить мои модели?