#r #date #for-loop #value-iteration
Вопрос:
Это первый вопрос, который я задаю здесь, я надеюсь сделать это правильно!
У меня есть набор данных с миллионами наблюдений. Каждая строка представляет собой рецепт на лекарство, полученный разными лицами в разные даты, причем каждый человек несколько раз появляется в кадре данных.
library(dplyr)
set.seed(42)
ID <- sample(c("ID1", "ID2", "ID3", "ID4", "ID5", "ID6", "ID7", "ID8", "ID9", "ID10"), 40, replace = T)
prescription_date <- sample(seq(as.Date('1999/01/01'), as.Date('2010/01/01'), by="month"), 40)
switch <- sample(c(0, 1), 40, replace = T, prob = c(0.4, 0.6))
df <- data.frame(ID, prescription_date, switch) %>% group_by(ID)
df %>% arrange(ID) %>% print(n=40)
#> # A tibble: 40 x 3
#> # Groups: ID [10]
#> ID prescription_date switch
#> <fct> <date> <dbl>
#> 1 ID1 2007-03-01 1
#> 2 ID1 1999-06-01 0
#> 3 ID1 1999-02-01 1
#> 4 ID1 2006-09-01 0
#> 5 ID10 2008-08-01 0
#> 6 ID10 2000-09-01 1
#> 7 ID10 2001-09-01 1
#> 8 ID10 2001-11-01 1
#> 9 ID10 2000-04-01 1
#> 10 ID10 2004-09-01 1
#> 11 ID2 2008-10-01 1
#> 12 ID2 2003-01-01 0
#> 13 ID2 2005-12-01 0
#> 14 ID2 2000-06-01 0
#> 15 ID3 2007-07-01 1
#> 16 ID3 2007-11-01 0
#> 17 ID4 1999-03-01 1
#> 18 ID4 2003-10-01 0
#> 19 ID4 1999-05-01 1
#> 20 ID4 2007-10-01 1
#> 21 ID4 2005-04-01 0
#> 22 ID4 2009-05-01 1
#> 23 ID4 2005-10-01 0
#> 24 ID4 2003-07-01 0
#> 25 ID5 2008-06-01 1
#> 26 ID5 2002-04-01 1
#> 27 ID5 2005-01-01 0
#> 28 ID5 2001-05-01 0
#> 29 ID5 2009-09-01 1
#> 30 ID6 2006-08-01 0
#> 31 ID6 2000-12-01 0
#> 32 ID7 2007-06-01 0
#> 33 ID8 2008-11-01 1
#> 34 ID8 1999-09-01 0
#> 35 ID8 2007-05-01 0
#> 36 ID8 2009-03-01 1
#> 37 ID9 2009-10-01 0
#> 38 ID9 1999-10-01 1
#> 39 ID9 2007-04-01 0
#> 40 ID9 2008-01-01 0
Создано 2021-06-19 пакетом reprex (v0.3.0)
Переменная «переключатель» указывает, поменял ли индивид препарат в этом рецепте в соответствии с предыдущим рецептом. Мне нужно знать дату, когда каждый человек поменял препарат в третий раз. Однако мне приходится нелегко, так как я, похоже, не могу создать итеративное суммирование переменной «переключатель» по каждому наблюдению. Этого было бы достаточно, чтобы суметь создать что-то подобное этому:
#> # A tibble: 40 x 3
#> # Groups: ID [10]
#> ID prescription_date switch date3switch
#> <fct> <date> <dbl> <dbl>
#> 1 ID1 1999-02-01 1 1
#> 2 ID1 1999-06-01 0 NA
#> 3 ID1 2006-09-01 0 NA
#> 4 ID1 2007-03-01 1 2
#> 5 ID10 2000-04-01 1 1
#> 6 ID10 2000-09-01 1 2
#> 7 ID10 2001-09-01 1 3
#> 8 ID10 2001-11-01 1 4
#> 9 ID10 2004-09-01 1 5
#> 10 ID10 2008-08-01 0 NA
#> 11 ID2 2000-06-01 0 NA
#> 12 ID2 2003-01-01 0 NA
#> 13 ID2 2005-12-01 0 NA
#> 14 ID2 2008-10-01 1 1
#> 15 ID3 2007-07-01 1 1
#> 16 ID3 2007-11-01 0 NA
#> 17 ID4 1999-03-01 1 1
#> 18 ID4 1999-05-01 1 2
#> 19 ID4 2003-07-01 0 NA
#> 20 ID4 2003-10-01 0 NA
#> 21 ID4 2005-04-01 0 NA
#> 22 ID4 2005-10-01 0 NA
#> 23 ID4 2007-10-01 1 3
#> 24 ID4 2009-05-01 1 4
Я попытался создать цикл for, но, думаю, он слишком сложен для моих навыков новичка, потому что мне удается создать только нулевой фрейм данных..
df <- for (i in 1:dim(df)[1]) {
if(sum(data$switch) == 3)
{ mutate(date3switch == prescribed_date)}
else NA
}
Создано 2021-06-19 пакетом reprex (v0.3.0)
Я ценю вашу помощь!
Ответ №1:
library(dplyr)
set.seed(42)
ID <- sample(c("ID1", "ID2", "ID3", "ID4", "ID5", "ID6", "ID7", "ID8", "ID9", "ID10"), 40, replace = T)
prescription_date <- sample(seq(as.Date('1999/01/01'), as.Date('2010/01/01'), by="month"), 40)
switch <- sample(c(0, 1), 40, replace = T, prob = c(0.4, 0.6))
df <- data.frame(ID, prescription_date, switch) %>% group_by(ID)
df %>% group_by(ID) %>%
arrange(prescription_date, .by_group = T) %>%
mutate(switch2 = ifelse(switch == 0, NA, cumsum(switch))) %>%
print(n = 40)
#> # A tibble: 40 x 4
#> # Groups: ID [10]
#> ID prescription_date switch switch2
#> <chr> <date> <dbl> <dbl>
#> 1 ID1 1999-02-01 1 1
#> 2 ID1 1999-06-01 0 NA
#> 3 ID1 2006-09-01 0 NA
#> 4 ID1 2007-03-01 1 2
#> 5 ID10 2000-04-01 1 1
#> 6 ID10 2000-09-01 1 2
#> 7 ID10 2001-09-01 1 3
#> 8 ID10 2001-11-01 1 4
#> 9 ID10 2004-09-01 1 5
#> 10 ID10 2008-08-01 0 NA
#> 11 ID2 2000-06-01 0 NA
#> 12 ID2 2003-01-01 0 NA
#> 13 ID2 2005-12-01 0 NA
#> 14 ID2 2008-10-01 1 1
#> 15 ID3 2007-07-01 1 1
#> 16 ID3 2007-11-01 0 NA
#> 17 ID4 1999-03-01 1 1
#> 18 ID4 1999-05-01 1 2
#> 19 ID4 2003-07-01 0 NA
#> 20 ID4 2003-10-01 0 NA
#> 21 ID4 2005-04-01 0 NA
#> 22 ID4 2005-10-01 0 NA
#> 23 ID4 2007-10-01 1 3
#> 24 ID4 2009-05-01 1 4
#> 25 ID5 2001-05-01 0 NA
#> 26 ID5 2002-04-01 1 1
#> 27 ID5 2005-01-01 0 NA
#> 28 ID5 2008-06-01 1 2
#> 29 ID5 2009-09-01 1 3
#> 30 ID6 2000-12-01 0 NA
#> 31 ID6 2006-08-01 0 NA
#> 32 ID7 2007-06-01 0 NA
#> 33 ID8 1999-09-01 0 NA
#> 34 ID8 2007-05-01 0 NA
#> 35 ID8 2008-11-01 1 1
#> 36 ID8 2009-03-01 1 2
#> 37 ID9 1999-10-01 1 1
#> 38 ID9 2007-04-01 0 NA
#> 39 ID9 2008-01-01 0 NA
#> 40 ID9 2009-10-01 0 NA
Создано 2021-06-19 пакетом reprex (v2.0.0)
Ответ №2:
Использование cumsum
будет полезно и заменит значение там, где switch = 0
нужно NA
.
library(dplyr)
df %>%
arrange(ID) %>%
group_by(ID) %>%
mutate(date3switch = cumsum(switch),
date3switch = replace(date3switch, switch == 0, NA)) %>%
ungroup
# ID prescription_date switch date3switch
# <chr> <date> <dbl> <dbl>
# 1 ID1 2007-03-01 1 1
# 2 ID1 1999-06-01 0 NA
# 3 ID1 1999-02-01 1 2
# 4 ID1 2006-09-01 0 NA
# 5 ID10 2008-08-01 0 NA
# 6 ID10 2000-09-01 1 1
# 7 ID10 2001-09-01 1 2
# 8 ID10 2001-11-01 1 3
# 9 ID10 2000-04-01 1 4
#10 ID10 2004-09-01 1 5
# … with 30 more rows
Комментарии:
1. Спасибо, это именно то, что мне было нужно! Простой и легкий в исполнении. Мне просто нужно будет также упорядочить наблюдения по дате 🙂 Невероятно, как одна функция может решить то, что казалось трудными проблемами!
Ответ №3:
Мы можем использовать na_if
library(dplyr)
df %>%
arrange(ID) %>%
group_by(ID) %>%
mutate(date3switch = na_if(cumsum(switch), 0))