#r #statistics #linear-regression #anova
#r #регрессия #anova
Вопрос:
В этом минимально воспроизводимом примере есть переменная результата и два предиктора (возраст и пол).
outcome <- c(1, 2, 2, 3, 3, 4, 4, 4, 4, 5,
5, 5, 5, 5, 5, 6, 6, 7, 8, 9)
sex <- c("M","M","M","M","F","M","F","F","M","M",
"F","F","F","F","M","M","F","F","F","F")
age <- c("C","C","C","A","C","C","C","C","C","A",
"C","C","A","C","C","C","C","A","A","A")
dt <- data.frame(outcome = o, sex = as.factor(s), age = as.factor(a))
Блок-график предполагает, что существует взаимодействие:
Когда я проверяю взаимодействие как часть модели, я получаю другую статистическую значимость, чем когда я проверяю только взаимодействие.
anova(lm(outcome ~ sex age sex:age, dt))
anova(lm(outcome ~ sex:age, dt))
Первое дает p-значение 0,187499 для термина взаимодействия, а второе p-значение 0,007738.
Может кто-нибудь объяснить разницу?
Ответ №1:
Тесты проводят разные сравнения. В общем, тесты anova()
сравнивают полную модель с моделью, в которой этот термин опущен. (Отредактировано, чтобы добавить: хотя все сложнее, когда задействованы взаимодействия; примером этого являются тесты основного эффекта.) В первом случае полная модель
outcome ~ sex age sex:age
и исключение sex:age
дает
outcome ~ sex age
модель основных эффектов. Итак, в этом случае вы действительно тестируете взаимодействие, и это не имеет значения: на графике это выглядит так C
, и M
оба дают более низкие значения, чем другой уровень ( A
и F
соответственно).
Во втором случае полная модель
outcome ~ sex:age
Вот sex:age
4-уровневый коэффициент, содержащий все комбинации уровней факторов. Исключение этого дает
outcome ~ 1
Итак, в этом случае тест проводится на наличие каких-либо различий между группами, и, очевидно, что-то происходит, поэтому оно оказывается значительным.
Комментарии:
1. Позвольте мне посмотреть, понимаю ли я: в sex age sex: age термин взаимодействия сам по себе не имеет значения, потому что другие предикторы оказывают более сильное влияние, но только пол: возраст важен, потому что он включает факторы пола и возраста?
2. Я бы сформулировал это по-другому, но вы в основном правы. Я считаю более полезным подумать о том, что тестируется: модель с отдельным эффектом для каждой из четырех групп является полной моделью в обоих случаях, но модель сравнения — это модель основных эффектов в первом случае и модель, в которой все наблюдения одинаковы во втором случае.
3. Спасибо, я пометил это как правильное.
Ответ №2:
Причина, по которой они отличаются, заключается в том, что в одной модели вы включили основные эффекты, а в другой модели вы включили только термин взаимодействия. Это приведет к разным значениям p.
Эти две модели будут одинаковыми:
anova(lm(outcome ~ sex age sex:age, dt))
anova(lm(outcome ~ sex*age, dt))
Обратите *
внимание, что обозначение в модели означает, что оно включает в себя основные эффекты и взаимодействие, а :
единственное означает термин взаимодействия.
Комментарии:
1. это хорошее начало, но не помешало бы подробнее …
2. Модель с формулой
outcome ~ sex:age
включает все три члена, взятые как один 3-df-член, представляющий все 4 уровня термина взаимодействия. Это не то же самое, чтоsex:age
в моделиsex*age
orsex age sex:age
, где она представляет только ту часть, которая не зависит от основных эффектов.3. Да, я спрашиваю, почему включение дополнительных терминов дает другое значение p по сравнению с одним только взаимодействием. Спасибо.
4. Я объясняю это в своем ответе.