Статистический анализ данных Likert в python

#python #data-science #data-analysis #likert

#python #наука о данных #анализ данных #likert

Вопрос:

У меня есть два набора данных Likert в масштабе от 0 до 100, где 0 — категорически не согласен, а 100 — категорически согласен. Первый набор состоит из ответов выборки из 500 пользователей. Второй набор также состоит из числовых ответов от той же выборки из 500 пользователей. Эти наборы данных связаны следующим образом: i-й пользователь в первом наборе совпадал с i-м пользователем во вторых данных во многих случаях конкретной игровой платформы (например: вечеринка в playstation network) для i = 1,…,500. Вопрос, заданный пользователю: вам нравятся собаки? Вот пример того, как выглядят данные:

 user_1_data = [100,60,98, 50,0,...,20,100]
user_2_data = [50,75,12,...,100,20]
 

где user_1_data[0] — это пользователь, который соответствует user_2_data [0], и их ответы равны 100 и 50 соответственно на вопрос, любите ли вы собак? и так далее и тому подобное, пока i = 500.
Мне удалось отобразить фактические данные в приведенном ниже распределении вероятностей. Где ось x — это рейтинг от 0 до 100, а ось y — вероятность выбора этого конкретного рейтинга.
Данные пользователя 1 и 2

Хотя распределения выглядят похожими, мне нужен какой-то тест, чтобы доказать некоторую значимость между ними (если таковые имеются). В конечном счете, я хотел бы ответить на вопрос: означает ли подобное распределение ответов, что пользователи будут играть вместе в разных случаях?

Пожалуйста, не стесняйтесь редактировать этот вопрос для форматирования и облегчения понимания.

Это вопрос статистики. Пожалуйста, используйте термины статистики и математический язык, если это возможно. Я новичок в науке о данных и хотел бы узнать, как ответить на мой собственный вопрос в будущем.

Я пишу на python.

Комментарии:

1. Помогает ли эта статья? medium.com/@sourcedexter/… . Также вы можете попробовать тест KS, реализованный на python в scipy.stats.kstest

2. @sintribu Я вижу, что расхождение Дженсена-Шеннона измеряет различия в распределении вероятностей. Но какой вывод я могу сделать из этого?

3. Это дает вам метрику для измерения сходства распределения, но если вы ищете какой-то доверительный интервал вокруг этой метрики, я, честно говоря, не имею права отвечать. Возможно, вы захотите задать этот вопрос в Math stack exchange.

4. @sintribu Понял. Тем не менее, спасибо за вашу помощь.