является ли биномиальный тест или логистическая регрессия лучшим тестом гипотезы в этой ситуации?

#statistics #statistical-test

Вопрос:

Мне было поручено разработать структуру на работе, чтобы определить, являются ли % просроченных выплат для подсегментов портфеля.

Для простоты предположим, что данные выглядят следующим образом — оба категоричны с двумя уровнями (1-да и 0-нет).:

Las Vegas Несвоевременная Оплата Счетов
1 0
1 1
0 1
0 0
1 1
…и т. д …и т. д

Поэтому, предполагая, что процент Лас-Вегаса с просроченными выплатами выше, чем в портфеле, я хочу оценить, так ли это существенно.

Моей первой мыслью было бы провести биномиальный тест на тех, кто живет в Лас-Вегасе, с учетом ожидаемого результата в процентах населения с опозданием. Однако, поскольку жители Лас-Вегаса являются частью более широкого населения, это может нарушить предположение о независимости? т. е. население влияет на ожидаемый результат.

в качестве альтернативы была рассмотрена логистическая регрессия:

 glm(`Late Bill Payment` ~ `Las Vegas`, data = mydata, family = "binomial")
 

глядя на значение коэффициента градиента p, чтобы определить результат проверки гипотезы.

Является ли любой из этих подходов правильным? или и то, и другое неверно? если да, то почему и есть ли лучшая альтернатива? Спасибо!!