#r #regression #logistic-regression #dummy-variable #multicollinearity
Вопрос:
Я провожу логистическую регрессию и хочу контролировать страну респондентов. У меня 12 стран. Я использовал пакет «fastDummy» для создания манекенов для каждой страны
library(fastDummy)
ALL<-dummy_cols(ALL, select_columns = "country")
Я получаю что-то вроде этого:
country_Japan 1 1 0 0 0 0
country_Taiwan 0 0 1 1 0 0
country_China 0 0 0 0 1 1
и так далее…
Как вы можете видеть, сумма всех переменных создает идеальную коллинеарность. По этой причине я не могу оценить модель.
Я читал, что мне нужно включить переменную с 0 в качестве последнего манекена страны, чтобы избежать этой коллинеарности. Это правильно? Я включил перехват (столбец с 1), но это не помогло.
Я был бы признателен за ваши предложения. Спасибо
Комментарии:
1. Просто превратите переменную вашей страны в фактор, и функция регрессии автоматически превратит ее в манекены.
Ответ №1:
Проверьте remove_first_dummy
параметр в dummy_cols
функции, т. е. установите для него значение TRUE
. Это должно решить вашу проблему мультиколлинеарности.