#r #plot #statistics
#r #график #Статистика
Вопрос:
У меня есть большой набор данных, аналогичный по структуре этому небольшому набору данных:
ID <- c(1,2,3,1,2,3,1,2,3)
Time_point <- c("T0", "T0", "T0", "T1", "T1", "T1", "T2", "T2", "T2")
Score <- c(35, 45, 25, 45, 45, 40, 60, 50, 40)
Practice_h <- c(NA, NA, NA, 2, 0, 3, 2, 1, 1)
df <- data.frame(ID, Time_point, Score, Practice_h)
rm(ID, Time_point, Score, Practice_h)
df
ID Time_point Score Practice_h
1 1 T0 35 NA
2 2 T0 45 NA
3 3 T0 25 NA
4 1 T1 45 2
5 2 T1 45 0
6 3 T1 40 3
7 1 T2 60 2
8 2 T2 50 1
9 3 T2 40 1
Два вопроса:
1) Я хотел бы запустить парный t-тест, сравнивающий оценки разных людей (обозначенные идентификатором) в разные моменты времени. Как я могу это сделать, не распространяя набор данных?
2) Я хотел бы выполнить простую регрессию, проверяя, влияет ли практика на различия в оценках. Для этого мне нужно было бы вычислить разницу между оценкой при T2 и T1 для каждого идентификатора. Есть идеи, как я могу это сделать, используя эту организацию данных?
(Причина, по которой я не хочу распространять свои данные, как показано ниже, заключается в том, что построение оценок, сгруппированных по временным точкам, на одном графике проблематично в этом формате.)
ID score_T0 score_T1 score_T2 practice_T1 practice_T2
1 1 35 45 60 2 2
2 2 45 45 50 0 1
3 3 25 40 40 3 1
Я знаю, что у меня много вопросов, и я очень благодарен за любую помощь, которую я могу получить, даже за частичные ответы. Спасибо!
Комментарии:
1. Почему бы просто не преобразовать (например
spread
) данные для вычисления и сохранить исходный формат для построения графика? Очень часто одни и те же данные имеют разную форму для разных задач.2. Хорошо, это имеет смысл. Я довольно новичок в анализе данных в R, поэтому мне было интересно, есть ли более простой способ сохранить все вместе. Но если иметь разные формы нормально, я, вероятно, сделаю то же самое 🙂 Спасибо!
3. Не могли бы вы дать объяснение / пример о номере 1 в ваших вопросах? Я интерпретирую это как желание найти разницу и выполнить парный t-тест с одним различием.
4. В вопросе 1 я хотел бы выполнить парный t-тест между разными временными точками, например, все оценки для T0 по сравнению со всеми оценками для T1. Но поскольку оценки здесь находятся в разных строках, а не в разных столбцах, я не знаю, как выполнить для них t-тест. Имеет ли это смысл?