Как построить анализ ключевых драйверов Nps в python?

#python #pandas #scikit-learn #statistics #regression

Вопрос:

У меня есть такой фрейм данных(столбцы имеют 10-балльную шкалу).

Продукт NPS время Качество комфорт
8 6 7 8
6 4 3 7
2 3 7 8

Я должен определить влияние других переменных на продукт nps. Я попытался использовать линейную регрессию с помощью sklearn, но R2 очень низкий.

Я не очень хорошо разбираюсь в статистике, какие методы являются лучшими для ее измерения? Спасибо

Ответ №1:

для регрессии ваш набор функций или независимые переменные должны быть, по крайней мере, масштабированы по интервалам, что означает, что различия в точках данных должны быть значимыми. В вашем случае все точки данных находятся в порядковом масштабе, т. е. порядок имеет значение, но различия нет. Вы можете попробовать ранговую корреляцию Спирмена для порядковых данных. Проверьте это https://towardsdatascience.com/discover-the-strength-of-monotonic-relation-850d11f72046

В противном случае вы можете попробовать порядковую регрессию

Комментарии:

1. Спасибо! Какой пакет в python предназначен для построения порядковой регрессии? Я пробовал статс-модели, но это не работает

2. на самом деле я сам этого не делал. вы можете попробовать пакет «морд». Однако я должен отметить одну вещь в отношении вашей цели: чтобы упростить интерпретации и операции, вы можете продолжать использовать линейную регрессию и изучать значения коэффициентов и P каждой переменной. R2-это только показатель прогностической способности, и он ничего не говорит о связи отдельной переменной с вашим NPS. Таким образом, низкий R2 не означает, что время или качество по отдельности не связаны с NPS. Низкий R2 означает, что только эти 3 переменные могут объяснить NPS в очень низкой степени

3. Хорошо, спасибо, итак, с помощью линейной регрессии, если коэффициент равен: время 0,40, качество 0,2 и комфорт 0,04, это означает, что время оказывает большее влияние на продукт nps, чем качество и комфорт в конце? если они значительны, очевидно

4. Поскольку все ваши переменные меньше на единицу и имеют одинаковый масштаб, я думаю, вы правы