В df с несколькими наблюдениями для каждого идентификатора, как условно найти дату в соответствии с другой переменной?

#r #date #for-loop #value-iteration

Вопрос:

Это первый вопрос, который я задаю здесь, я надеюсь сделать это правильно!

У меня есть набор данных с миллионами наблюдений. Каждая строка представляет собой рецепт на лекарство, полученный разными лицами в разные даты, причем каждый человек несколько раз появляется в кадре данных.

 library(dplyr)

set.seed(42)
ID <- sample(c("ID1", "ID2", "ID3", "ID4", "ID5", "ID6", "ID7", "ID8", "ID9", "ID10"), 40, replace = T)
prescription_date <- sample(seq(as.Date('1999/01/01'), as.Date('2010/01/01'), by="month"), 40)
switch <- sample(c(0, 1), 40, replace = T, prob = c(0.4, 0.6))
df <- data.frame(ID, prescription_date, switch) %>% group_by(ID)
df %>% arrange(ID) %>% print(n=40)

#> # A tibble: 40 x 3
#> # Groups:   ID [10]
#>    ID    prescription_date switch
#>    <fct> <date>             <dbl>
#>  1 ID1   2007-03-01             1
#>  2 ID1   1999-06-01             0
#>  3 ID1   1999-02-01             1
#>  4 ID1   2006-09-01             0
#>  5 ID10  2008-08-01             0
#>  6 ID10  2000-09-01             1
#>  7 ID10  2001-09-01             1
#>  8 ID10  2001-11-01             1
#>  9 ID10  2000-04-01             1
#> 10 ID10  2004-09-01             1
#> 11 ID2   2008-10-01             1
#> 12 ID2   2003-01-01             0
#> 13 ID2   2005-12-01             0
#> 14 ID2   2000-06-01             0
#> 15 ID3   2007-07-01             1
#> 16 ID3   2007-11-01             0
#> 17 ID4   1999-03-01             1
#> 18 ID4   2003-10-01             0
#> 19 ID4   1999-05-01             1
#> 20 ID4   2007-10-01             1
#> 21 ID4   2005-04-01             0
#> 22 ID4   2009-05-01             1
#> 23 ID4   2005-10-01             0
#> 24 ID4   2003-07-01             0
#> 25 ID5   2008-06-01             1
#> 26 ID5   2002-04-01             1
#> 27 ID5   2005-01-01             0
#> 28 ID5   2001-05-01             0
#> 29 ID5   2009-09-01             1
#> 30 ID6   2006-08-01             0
#> 31 ID6   2000-12-01             0
#> 32 ID7   2007-06-01             0
#> 33 ID8   2008-11-01             1
#> 34 ID8   1999-09-01             0
#> 35 ID8   2007-05-01             0
#> 36 ID8   2009-03-01             1
#> 37 ID9   2009-10-01             0
#> 38 ID9   1999-10-01             1
#> 39 ID9   2007-04-01             0
#> 40 ID9   2008-01-01             0
 

Создано 2021-06-19 пакетом reprex (v0.3.0)

Переменная «переключатель» указывает, поменял ли индивид препарат в этом рецепте в соответствии с предыдущим рецептом. Мне нужно знать дату, когда каждый человек поменял препарат в третий раз. Однако мне приходится нелегко, так как я, похоже, не могу создать итеративное суммирование переменной «переключатель» по каждому наблюдению. Этого было бы достаточно, чтобы суметь создать что-то подобное этому:

 
#> # A tibble: 40 x 3
#> # Groups:   ID [10]
#>    ID    prescription_date switch date3switch
#>    <fct> <date>             <dbl>       <dbl>
#>  1 ID1   1999-02-01             1           1
#>  2 ID1   1999-06-01             0           NA
#>  3 ID1   2006-09-01             0           NA
#>  4 ID1   2007-03-01             1           2
#>  5 ID10  2000-04-01             1           1
#>  6 ID10  2000-09-01             1           2
#>  7 ID10  2001-09-01             1           3
#>  8 ID10  2001-11-01             1           4
#>  9 ID10  2004-09-01             1           5
#> 10 ID10  2008-08-01             0          NA
#> 11 ID2   2000-06-01             0          NA
#> 12 ID2   2003-01-01             0          NA
#> 13 ID2   2005-12-01             0          NA
#> 14 ID2   2008-10-01             1           1
#> 15 ID3   2007-07-01             1           1
#> 16 ID3   2007-11-01             0          NA
#> 17 ID4   1999-03-01             1           1
#> 18 ID4   1999-05-01             1           2
#> 19 ID4   2003-07-01             0          NA
#> 20 ID4   2003-10-01             0          NA
#> 21 ID4   2005-04-01             0          NA
#> 22 ID4   2005-10-01             0          NA
#> 23 ID4   2007-10-01             1           3
#> 24 ID4   2009-05-01             1           4

 

Я попытался создать цикл for, но, думаю, он слишком сложен для моих навыков новичка, потому что мне удается создать только нулевой фрейм данных..

 df <- for (i in 1:dim(df)[1]) {
  if(sum(data$switch) == 3) 
  { mutate(date3switch == prescribed_date)}
  else NA
  }

 

Создано 2021-06-19 пакетом reprex (v0.3.0)

Я ценю вашу помощь!

Ответ №1:

 library(dplyr)
set.seed(42)
ID <- sample(c("ID1", "ID2", "ID3", "ID4", "ID5", "ID6", "ID7", "ID8", "ID9", "ID10"), 40, replace = T)
prescription_date <- sample(seq(as.Date('1999/01/01'), as.Date('2010/01/01'), by="month"), 40)
switch <- sample(c(0, 1), 40, replace = T, prob = c(0.4, 0.6))
df <- data.frame(ID, prescription_date, switch) %>% group_by(ID)



df %>% group_by(ID) %>%
  arrange(prescription_date, .by_group = T) %>%
  mutate(switch2 = ifelse(switch == 0, NA, cumsum(switch))) %>%
  print(n = 40)
#> # A tibble: 40 x 4
#> # Groups:   ID [10]
#>    ID    prescription_date switch switch2
#>    <chr> <date>             <dbl>   <dbl>
#>  1 ID1   1999-02-01             1       1
#>  2 ID1   1999-06-01             0      NA
#>  3 ID1   2006-09-01             0      NA
#>  4 ID1   2007-03-01             1       2
#>  5 ID10  2000-04-01             1       1
#>  6 ID10  2000-09-01             1       2
#>  7 ID10  2001-09-01             1       3
#>  8 ID10  2001-11-01             1       4
#>  9 ID10  2004-09-01             1       5
#> 10 ID10  2008-08-01             0      NA
#> 11 ID2   2000-06-01             0      NA
#> 12 ID2   2003-01-01             0      NA
#> 13 ID2   2005-12-01             0      NA
#> 14 ID2   2008-10-01             1       1
#> 15 ID3   2007-07-01             1       1
#> 16 ID3   2007-11-01             0      NA
#> 17 ID4   1999-03-01             1       1
#> 18 ID4   1999-05-01             1       2
#> 19 ID4   2003-07-01             0      NA
#> 20 ID4   2003-10-01             0      NA
#> 21 ID4   2005-04-01             0      NA
#> 22 ID4   2005-10-01             0      NA
#> 23 ID4   2007-10-01             1       3
#> 24 ID4   2009-05-01             1       4
#> 25 ID5   2001-05-01             0      NA
#> 26 ID5   2002-04-01             1       1
#> 27 ID5   2005-01-01             0      NA
#> 28 ID5   2008-06-01             1       2
#> 29 ID5   2009-09-01             1       3
#> 30 ID6   2000-12-01             0      NA
#> 31 ID6   2006-08-01             0      NA
#> 32 ID7   2007-06-01             0      NA
#> 33 ID8   1999-09-01             0      NA
#> 34 ID8   2007-05-01             0      NA
#> 35 ID8   2008-11-01             1       1
#> 36 ID8   2009-03-01             1       2
#> 37 ID9   1999-10-01             1       1
#> 38 ID9   2007-04-01             0      NA
#> 39 ID9   2008-01-01             0      NA
#> 40 ID9   2009-10-01             0      NA
 

Создано 2021-06-19 пакетом reprex (v2.0.0)

Ответ №2:

Использование cumsum будет полезно и заменит значение там, где switch = 0 нужно NA .

 library(dplyr)

df %>%
  arrange(ID) %>%
  group_by(ID) %>%
  mutate(date3switch = cumsum(switch), 
         date3switch = replace(date3switch, switch == 0, NA)) %>%
  ungroup

#    ID    prescription_date switch date3switch
#   <chr> <date>             <dbl>       <dbl>
# 1 ID1   2007-03-01             1           1
# 2 ID1   1999-06-01             0          NA
# 3 ID1   1999-02-01             1           2
# 4 ID1   2006-09-01             0          NA
# 5 ID10  2008-08-01             0          NA
# 6 ID10  2000-09-01             1           1
# 7 ID10  2001-09-01             1           2
# 8 ID10  2001-11-01             1           3
# 9 ID10  2000-04-01             1           4
#10 ID10  2004-09-01             1           5
# … with 30 more rows
 

Комментарии:

1. Спасибо, это именно то, что мне было нужно! Простой и легкий в исполнении. Мне просто нужно будет также упорядочить наблюдения по дате 🙂 Невероятно, как одна функция может решить то, что казалось трудными проблемами!

Ответ №3:

Мы можем использовать na_if

 library(dplyr)
df %>%
   arrange(ID) %>%
   group_by(ID) %>%
   mutate(date3switch = na_if(cumsum(switch), 0))