#r #join #error-handling
#r #Присоединиться #обработка ошибок
Вопрос:
Я объединил пять наборов данных, используя full_join
функцию dplyr
package. В первом наборе данных было 6165 строк; во вторых наборах данных было 5827 строк. Окончательный объединенный набор данных содержит 33 503 строки. Я использовал следующий код для объединения пяти наборов данных.
n2<-full_join(n96, n01)
n3<-full_join(n2, n06)
n4<-full_join(n3, n11)
nf<-full_join(n4, n16)
View(nf)
Окончательный набор данных выглядит следующим образом….
v000 v005 age v021 v022 v023 v024 resi region v102 education pregnant v445 v501 v717 wealth occupation marital wgtv BMI obov
<chr> <dbl> <dbl l> <dbl> <dbl> <dbl> <dbl l> <dbl l> <dbl l> <dbl l> <dbl lbl> <dbl lb> <dbl> <dbl l> <dbl l> <dbl l> <dbl lbl> <dbl l> <dbl> <dbl> <fct>
1 NP3 412612 6 [40-~ 101 51 0 1 [pro~ 2 [rur~ 1 [pro~ 2 [rur~ 0 [no ed~ 0 [no o~ 2285 1 [mar~ 4 [agr~ 1 [poo~ 2 [cleric~ 1 [mar~ 0.413 22.8 0
2 NP3 412612 3 [25-~ 101 51 0 1 [pro~ 2 [rur~ 1 [pro~ 2 [rur~ 0 [no ed~ 0 [no o~ 2159 1 [mar~ 4 [agr~ 1 [poo~ 2 [cleric~ 1 [mar~ 0.413 21.6 0
3 NP3 412612 4 [30-~ 101 51 0 1 [pro~ 2 [rur~ 1 [pro~ 2 [rur~ 0 [no ed~ 0 [no o~ 2167 1 [mar~ 4 [agr~ 3 [mid~ 2 [cleric~ 1 [mar~ 0.413 21.7 0
4 NP3 412612 5 [35-~ 101 51 0 1 [pro~ 2 [rur~ 1 [pro~ 2 [rur~ 0 [no ed~ 0 [no o~ 2039 1 [mar~ 4 [agr~ 4 [ric~ 2 [cleric~ 1 [mar~ 0.413 20.4 0
5 NP3 412612 2 [20-~ 101 51 0 1 [pro~ 2 [rur~ 1 [pro~ 2 [rur~ 1 [prima~ 0 [no o~ 2163 1 [mar~ 4 [agr~ 3 [mid~ 2 [cleric~ 1 [mar~ 0.413 21.6 0
6 NP3 412612 5 [35-~ 101 51 0 1 [pro~ 2 [rur~ 1 [pro~ 2 [rur~ 0 [no ed~ 0 [no o~ 3785 1 [mar~ 4 [agr~ 2 [poo~ 2 [cleric~ 1 [mar~ 0.413 37.8 2
# ... with 6 more variables: over <fct>, age1 <dbl lbl>, working_status <dbl lbl>, education1 <dbl lbl>, year <dbl>, stra <fct>
Поскольку это сложный набор данных опроса. Я использовал дизайн опроса.
svs<-svydesign(id=nf$v021, strata=nf$stra, nest=TRUE, weights=nf$wgtv, data=nf)
Это работает. Во время анализа я обнаружил ошибки, связанные с объектом. Чтобы исправить это, я использовал следующий код-
svs1 <-
update(
svs,
one=1,
edu = factor( education, levels = c(0, 1, 2, 3), labels =
c("no edu", "primary", "secondary", "higher") ),
wealth =factor( wealth, levels = c(1, 2, 3, 4, 5) , labels =
c("poorest", "poorer", "middle", "richer", "richest")),
marital = factor( marital, levels = c(0, 1) , labels =
c( "never married", "married")),
occu = factor( occu, levels = c(0, 1, 2, 3) , labels =
c( "not working" , "professional/technical/manageral/clerial/sale/services" , "agricultural", "skilled/unskilled manual") ),
age1 = factor(age1, levels = c(1, 2, 3), labels =
c( "early" , "mid", "late") ),
obov= factor(obov, levels = c(0, 1, 2), labels=
c("normal", "overweight", "obese")),
over= factor(over, levels = c(0, 1), labels=
c("normal", "overweight/obese")),
working_status= factor (working_status, levels = c(0, 1), labels = c("not working", "working")),
education1= factor (education1, levels = c(0, 1, 2), labels=
c("no education", "primary", "secondary/secondry ")),
resi= factor (resi, levels= c(0,1), labels= c("urban", "rural"))
)
Теперь я обнаружил следующую ошибку
Error in `[<-.data.frame`(`*tmp*`, , newnames[j], value = c(3L, 3L, 3L, :
replacement has 12674 rows, data has 33503
Пожалуйста, подскажите, как я могу исправить эту ошибку?
Ответ №1:
Я не уверен, как работает update
функция, но, похоже, вы хотите изменить уровни факторов переменных. Вы можете сделать это в nf
dataframe перед передачей его в svydesign
функцию.
library(dplyr)
nf <- nf %>%
mutate(edu = factor( education, levels = c(0, 1, 2, 3), labels =
c("no edu", "primary", "secondary", "higher") ),
wealth =factor( wealth, levels = c(1, 2, 3, 4, 5) , labels =
c("poorest", "poorer", "middle", "richer", "richest")),
marital = factor( marital, levels = c(0, 1) , labels =
c( "never married", "married")),
occu = factor( occu, levels = c(0, 1, 2, 3) , labels =
c( "not working" , "professional/technical/manageral/clerial/sale/services" , "agricultural", "skilled/unskilled manual") ),
age1 = factor(age1, levels = c(1, 2, 3), labels =
c( "early" , "mid", "late") ),
obov= factor(obov, levels = c(0, 1, 2), labels=
c("normal", "overweight", "obese")),
over= factor(over, levels = c(0, 1), labels=
c("normal", "overweight/obese")),
working_status= factor (working_status, levels = c(0, 1), labels = c("not working", "working")),
education1= factor (education1, levels = c(0, 1, 2), labels=
c("no education", "primary", "secondary/secondry ")),
resi= factor (resi, levels= c(0,1), labels= c("urban", "rural")))