Как использовать фиктивную переменную в lm() в качестве зависимой переменной?

#r #linear-regression #mean #lm #dummy-variable

#r #линейная регрессия #означает #lm #фиктивная переменная

Вопрос:

Я импортировал два csv-файла, которые содержат одни и те же переменные в два разных времени. Затем мне удалось сгенерировать новый третий csv-файл с помощью функции rbind() . Я попытался создать линейную регрессию с помощью функции lm(), тогда как время используется в качестве фиктивной переменной. Остальные переменные являются числовыми, я изменил их с категоризированных на числовые. На выходе некоторые переменные отображаются как числовые, а другие классифицируются по категориям, что для меня подозрительно. Я хотел бы взять среднее значение переменных и сопоставить их с фиктивной переменной, где я всегда получаю сообщение об ошибке, что длины переменных разные.

Я уже пробовал функцию glm () и получал среднее значение каждой переменной. Я также определил переменные как числовые.

 gh_old_small_short <- read.csv(file.choose(), header=T, sep=";")
gh_new_small_short <- read.csv(file.choose(), header=T, sep=";")
  
 ghold <- rbind(gh_old_small_short, gh_new_small_short,  fill=T)
names(gh_new_small_short) <- names(gh_old_small_short)
  
 model1 <- lm(formula = dummy ~ GovernmentOfficials   OfficeOfPresidency   MembersOfParliament   Age  
            Police   TaxOfficials   JudgesAndMagistrates   FightingCorruption, data=ghold, na.rm=T)
summary(model1)
  

Я ожидаю таблицу линейной регрессии, которая включает каждую переменную в целом, а не каждый вариант ответа по отдельности, потому что я восстановил переменные как числовые.

Комментарии:

1. Нет аргумента fill для rbind . Что вы под этим подразумеваете?

2. Он заполняет недостающие столбцы NA . Когда код используется без fill=T, результат тот же.