результаты хи-квадрат не равны, если ожидаемые пропорции используются вместо подсчетов в R

#r #statistics #goodness-of-fit

#r #Статистика #соответствие требованиям

Вопрос:

проверка соответствия между двумя выборками из одного и того же факта в разные месяцы. Я хочу знать, похожи ли результаты в 4 категориях с сентября / отличаются от октября.

Проблема в том, что мой тест дает мне разные выводы при использовании таблицы непредвиденных обстоятельств по сравнению с ожидаемыми пропорциями, принимая предыдущий месяц в качестве ожидаемых пропорций.

Примерные данные:

 data <-data.frame(september=c(10741, 1575, 174, 2),
          october= c(11987, 1705, 211, 2), 
          row.names = c("A", "B", "C", "D"))
> data
  september october
A     10741   11987
B      1575    1705
C       174     211
D         2       2
  

тестирование обычным способом с использованием таблицы непредвиденных обстоятельств:

 > chisq.test(data)

Pearson's Chi-squared test

data:  data
X-squared = 1.3846, df = 3, p-value = 0.7092
  

вычисление пропорций с сентября и установка их в качестве ожидаемых вероятностей:

     p <- data$september %>% prop.table()

    [1] 0.8598302914 0.1260806916 0.0139289145 0.0001601025

 chisq.test(x=data$october, p = p)

    Chi-squared test for given probabilities

data:  data$october
X-squared =  2.9748, df = 3, p-value = 0.3955
  

почему такая разница в тесте? какой из них неверен? Я предполагаю, что две стратегии приводят к одному и тому же результату, но, похоже, это ошибка.

Комментарии:

1. Это методологическая проблема, ожидаемые пропорции разные в каждом случае. В первом примере мы будем использовать среднее значение за сентябрь и октябрь. Во втором случае вы устанавливаете вероятности сентября как ожидаемые. Итак, в этом разница.

2. Итак, @Brutalroot, если я понял вашу точку зрения, для сравнения сентября с Октябрь первый метод является наиболее точным?

3. Это зависит. Если вы не знаете об ожидаемой частоте, да. Если вы хотите проверить взаимозависимость между сентябрем и октябрем, вам также следует использовать первый метод. Однако, если вы знаете ожидаемую частоту и хотите проверить, не зависит ли от нее октябрь, вам следует использовать метод 2.