#r #panel-data #longitudinal
#r #панель-данные #продольный
Вопрос:
У меня есть набор продольных данных, которые представляют собой количество пациентов, наблюдавшихся в течение нескольких лет в нерегулярные моменты времени, я не могу опубликовать их из-за проблем с конфиденциальностью,
По сути, каждая строка представляет одну встречу с пациентом, с датой поступления, датой выписки, идентификатором пациента и различными демографическими (например, этническая принадлежность) и другими переменными,
например:
Терпеливый | Дата Поступления | Этническая принадлежность |
---|---|---|
1 | 26-01-2007 | Белый |
1 | 28-08-2008 | Белый |
2 | 12-02-2001 | Черный |
2 | 01-12-2015 | Черный |
2 | 03-12-2018 | Черный |
Я пробовал использовать различные пакеты, такие как brolgar и tsibble, но не могу получить простую сводную статистику, такую как количество отдельных пациентов, количество встреч на пациента, время от первого до последнего посещения на пациента в каждой этнической категории (это, вероятно, заслуживает другого вопроса, так как это, вероятно, намного сложнее), например,
В стандартном наборе данных вы можете использовать dplyr, чтобы сделать что-то вроде:
df %gt;% group_by(Ethnicity) %gt;% summarise(n=n)
подсчитать количество пациентов в группе,
Но я не уверен, как это сделать для этого набора данных, несмотря на то, что прошел через такие пакеты, как brolgar/tsibble,
Буду признателен за любые советы
Большое спасибо
Комментарии:
1. Количество встреч на одного пациента будет следующим: df %gt;% group_by(пациент) %gt;gt;% суммировать(n=n())
Ответ №1:
Я сделал это :
df lt;- data.frame("Patient" = c(rep(1, 2), rep(2, 3)), "Admission Date" = c("26-01-2007", "28-08-2008", "12-02-2001", "01-12-2015", "03-12-2018"), "Ethnicity" = c(rep("White", 2), rep("Black", 3)), stringsAsFactors = FALSE) individual_patient lt;- n_distinct(df$Patient) df2 lt;- df %gt;% group_by(Patient) %gt;% summarise(Encounter_number = n())
Это другие вещи, которые вам нужно вычислить ?