#r #statistics #goodness-of-fit
#r #Статистика #соответствие требованиям
Вопрос:
проверка соответствия между двумя выборками из одного и того же факта в разные месяцы. Я хочу знать, похожи ли результаты в 4 категориях с сентября / отличаются от октября.
Проблема в том, что мой тест дает мне разные выводы при использовании таблицы непредвиденных обстоятельств по сравнению с ожидаемыми пропорциями, принимая предыдущий месяц в качестве ожидаемых пропорций.
Примерные данные:
data <-data.frame(september=c(10741, 1575, 174, 2),
october= c(11987, 1705, 211, 2),
row.names = c("A", "B", "C", "D"))
> data
september october
A 10741 11987
B 1575 1705
C 174 211
D 2 2
тестирование обычным способом с использованием таблицы непредвиденных обстоятельств:
> chisq.test(data)
Pearson's Chi-squared test
data: data
X-squared = 1.3846, df = 3, p-value = 0.7092
вычисление пропорций с сентября и установка их в качестве ожидаемых вероятностей:
p <- data$september %>% prop.table()
[1] 0.8598302914 0.1260806916 0.0139289145 0.0001601025
chisq.test(x=data$october, p = p)
Chi-squared test for given probabilities
data: data$october
X-squared = 2.9748, df = 3, p-value = 0.3955
почему такая разница в тесте? какой из них неверен? Я предполагаю, что две стратегии приводят к одному и тому же результату, но, похоже, это ошибка.
Комментарии:
1. Это методологическая проблема, ожидаемые пропорции разные в каждом случае. В первом примере мы будем использовать среднее значение за сентябрь и октябрь. Во втором случае вы устанавливаете вероятности сентября как ожидаемые. Итак, в этом разница.
2. Итак, @Brutalroot, если я понял вашу точку зрения, для сравнения сентября с Октябрь первый метод является наиболее точным?
3. Это зависит. Если вы не знаете об ожидаемой частоте, да. Если вы хотите проверить взаимозависимость между сентябрем и октябрем, вам также следует использовать первый метод. Однако, если вы знаете ожидаемую частоту и хотите проверить, не зависит ли от нее октябрь, вам следует использовать метод 2.