R: Как статистически проанализировать парные данные в наборе данных, который имеет собранный формат?

#r #plot #statistics

#r #график #Статистика

Вопрос:

У меня есть большой набор данных, аналогичный по структуре этому небольшому набору данных:

 ID <- c(1,2,3,1,2,3,1,2,3)
Time_point <- c("T0", "T0", "T0", "T1", "T1", "T1", "T2", "T2", "T2")
Score <- c(35, 45, 25, 45, 45, 40, 60, 50, 40)
Practice_h <- c(NA, NA, NA, 2, 0, 3, 2, 1, 1)
df <- data.frame(ID, Time_point, Score, Practice_h)
rm(ID, Time_point, Score, Practice_h)

df

  ID Time_point Score Practice_h
1  1        T0    35         NA
2  2        T0    45         NA
3  3        T0    25         NA
4  1        T1    45          2
5  2        T1    45          0
6  3        T1    40          3
7  1        T2    60          2
8  2        T2    50          1
9  3        T2    40          1
  

Два вопроса:

1) Я хотел бы запустить парный t-тест, сравнивающий оценки разных людей (обозначенные идентификатором) в разные моменты времени. Как я могу это сделать, не распространяя набор данных?

2) Я хотел бы выполнить простую регрессию, проверяя, влияет ли практика на различия в оценках. Для этого мне нужно было бы вычислить разницу между оценкой при T2 и T1 для каждого идентификатора. Есть идеи, как я могу это сделать, используя эту организацию данных?

(Причина, по которой я не хочу распространять свои данные, как показано ниже, заключается в том, что построение оценок, сгруппированных по временным точкам, на одном графике проблематично в этом формате.)

   ID score_T0 score_T1 score_T2 practice_T1 practice_T2
1  1       35       45       60           2           2
2  2       45       45       50           0           1
3  3       25       40       40           3           1
  

Я знаю, что у меня много вопросов, и я очень благодарен за любую помощь, которую я могу получить, даже за частичные ответы. Спасибо!

Комментарии:

1. Почему бы просто не преобразовать (например spread ) данные для вычисления и сохранить исходный формат для построения графика? Очень часто одни и те же данные имеют разную форму для разных задач.

2. Хорошо, это имеет смысл. Я довольно новичок в анализе данных в R, поэтому мне было интересно, есть ли более простой способ сохранить все вместе. Но если иметь разные формы нормально, я, вероятно, сделаю то же самое 🙂 Спасибо!

3. Не могли бы вы дать объяснение / пример о номере 1 в ваших вопросах? Я интерпретирую это как желание найти разницу и выполнить парный t-тест с одним различием.

4. В вопросе 1 я хотел бы выполнить парный t-тест между разными временными точками, например, все оценки для T0 по сравнению со всеми оценками для T1. Но поскольку оценки здесь находятся в разных строках, а не в разных столбцах, я не знаю, как выполнить для них t-тест. Имеет ли это смысл?