#python #pandas #scikit-learn #statistics #regression
Вопрос:
У меня есть такой фрейм данных(столбцы имеют 10-балльную шкалу).
Продукт NPS | время | Качество | комфорт |
---|---|---|---|
8 | 6 | 7 | 8 |
6 | 4 | 3 | 7 |
2 | 3 | 7 | 8 |
Я должен определить влияние других переменных на продукт nps. Я попытался использовать линейную регрессию с помощью sklearn, но R2 очень низкий.
Я не очень хорошо разбираюсь в статистике, какие методы являются лучшими для ее измерения? Спасибо
Ответ №1:
для регрессии ваш набор функций или независимые переменные должны быть, по крайней мере, масштабированы по интервалам, что означает, что различия в точках данных должны быть значимыми. В вашем случае все точки данных находятся в порядковом масштабе, т. е. порядок имеет значение, но различия нет. Вы можете попробовать ранговую корреляцию Спирмена для порядковых данных. Проверьте это https://towardsdatascience.com/discover-the-strength-of-monotonic-relation-850d11f72046
В противном случае вы можете попробовать порядковую регрессию
Комментарии:
1. Спасибо! Какой пакет в python предназначен для построения порядковой регрессии? Я пробовал статс-модели, но это не работает
2. на самом деле я сам этого не делал. вы можете попробовать пакет «морд». Однако я должен отметить одну вещь в отношении вашей цели: чтобы упростить интерпретации и операции, вы можете продолжать использовать линейную регрессию и изучать значения коэффициентов и P каждой переменной. R2-это только показатель прогностической способности, и он ничего не говорит о связи отдельной переменной с вашим NPS. Таким образом, низкий R2 не означает, что время или качество по отдельности не связаны с NPS. Низкий R2 означает, что только эти 3 переменные могут объяснить NPS в очень низкой степени
3. Хорошо, спасибо, итак, с помощью линейной регрессии, если коэффициент равен: время 0,40, качество 0,2 и комфорт 0,04, это означает, что время оказывает большее влияние на продукт nps, чем качество и комфорт в конце? если они значительны, очевидно
4. Поскольку все ваши переменные меньше на единицу и имеют одинаковый масштаб, я думаю, вы правы