#statistics #statistical-test
Вопрос:
Мне было поручено разработать структуру на работе, чтобы определить, являются ли % просроченных выплат для подсегментов портфеля.
Для простоты предположим, что данные выглядят следующим образом — оба категоричны с двумя уровнями (1-да и 0-нет).:
Las Vegas | Несвоевременная Оплата Счетов |
---|---|
1 | 0 |
1 | 1 |
0 | 1 |
0 | 0 |
1 | 1 |
…и т. д | …и т. д |
Поэтому, предполагая, что процент Лас-Вегаса с просроченными выплатами выше, чем в портфеле, я хочу оценить, так ли это существенно.
Моей первой мыслью было бы провести биномиальный тест на тех, кто живет в Лас-Вегасе, с учетом ожидаемого результата в процентах населения с опозданием. Однако, поскольку жители Лас-Вегаса являются частью более широкого населения, это может нарушить предположение о независимости? т. е. население влияет на ожидаемый результат.
в качестве альтернативы была рассмотрена логистическая регрессия:
glm(`Late Bill Payment` ~ `Las Vegas`, data = mydata, family = "binomial")
глядя на значение коэффициента градиента p, чтобы определить результат проверки гипотезы.
Является ли любой из этих подходов правильным? или и то, и другое неверно? если да, то почему и есть ли лучшая альтернатива? Спасибо!!