Цикл по нескольким наборам данных и нескольким столбцам, но в одном отсутствует переменная

#r #function #loops #dictionary #dplyr

Вопрос:

Я использую несколько наборов данных (волны опроса), включая те же переменные, которые я извлекаю следующим образом.

Сначала я создаю функцию для выбора соответствующих переменных:

 files <- list.files(path = getwd())
tmp <- map(files, read_stata)

extractColumns <- function(x){
  select(x, "var1", "var2", "var3", "var4", "var5", "wt")
}
 

Затем я применяю эту функцию ко всем наборам данных:

 df <- map(tmp,extractColumns) %>% bind_rows()
 

Однако переменная «wt» (вес) отсутствует в некоторых итерациях опроса. Поэтому я получаю следующую ошибку:

  Error: Can't subset columns that don't exist.
x Column `wt` doesn't exist.
Run `rlang::last_error()` to see where the error occurred. 
 

Поскольку эта переменная включена не во все волны, я хочу, чтобы код создал переменную «wt» для волн, у которых нет этой переменной, и присвоил всем респондентам в этих волнах значение 1.

Комментарии:

1. if (!("wt" %in% names(x))) x <- x %>% add_column(wt=1)

Ответ №1:

Я думаю, тебе нужно dplyr::any_of :

 myvars <- c("var1", "var2", "var3", "var4", "var5", "wt")

extractColumns <- function(x){
  select(x, any_of(myvars))
}