#r #linear-regression #mean #lm #dummy-variable
#r #линейная регрессия #означает #lm #фиктивная переменная
Вопрос:
Я импортировал два csv-файла, которые содержат одни и те же переменные в два разных времени. Затем мне удалось сгенерировать новый третий csv-файл с помощью функции rbind() . Я попытался создать линейную регрессию с помощью функции lm(), тогда как время используется в качестве фиктивной переменной. Остальные переменные являются числовыми, я изменил их с категоризированных на числовые. На выходе некоторые переменные отображаются как числовые, а другие классифицируются по категориям, что для меня подозрительно. Я хотел бы взять среднее значение переменных и сопоставить их с фиктивной переменной, где я всегда получаю сообщение об ошибке, что длины переменных разные.
Я уже пробовал функцию glm () и получал среднее значение каждой переменной. Я также определил переменные как числовые.
gh_old_small_short <- read.csv(file.choose(), header=T, sep=";")
gh_new_small_short <- read.csv(file.choose(), header=T, sep=";")
ghold <- rbind(gh_old_small_short, gh_new_small_short, fill=T)
names(gh_new_small_short) <- names(gh_old_small_short)
model1 <- lm(formula = dummy ~ GovernmentOfficials OfficeOfPresidency MembersOfParliament Age
Police TaxOfficials JudgesAndMagistrates FightingCorruption, data=ghold, na.rm=T)
summary(model1)
Я ожидаю таблицу линейной регрессии, которая включает каждую переменную в целом, а не каждый вариант ответа по отдельности, потому что я восстановил переменные как числовые.
Комментарии:
1. Нет аргумента
fill
дляrbind
. Что вы под этим подразумеваете?2. Он заполняет недостающие столбцы NA . Когда код используется без fill=T, результат тот же.