R: вычисление rowwise lm() по нескольким переменным

#r #linear-regression #boxplot #lm #rowwise

#r #линейная регрессия #boxplot #lm #rowwise

Вопрос:

Как я могу вычислить по строкам lm () / коэффициенты нескольких переменных в df, которые хранятся в столбцах?

У меня есть такие данные (только примеры):

 set.seed(1)
foo <- data.frame(trialNumber= 1:10, 
Nr1 = runif(10), 
Nr2 = runif(10), 
Nr3 = runif(10), 
Nr4 = runif(10), 
Nr5 = runif(10), 
Nr6 = runif(10), 
slope = NA)
 

trialNumber представляет каждое испытание, в котором я измерил шесть значений непосредственно друг за другом.

Мне удалось построить эти данные с помощью линии линейной регрессии с помощью boxplots, используя этот код:

 foo_1 <- reshape2::melt(data = foo, id.vars = "trialNumber", measure.vars = c("Nr1", "Nr2", "Nr3", "Nr4", "Nr5", "Nr6"))

p <- ggplot(data = foo_1)   
  aes(x = variable,
      y = value)   
  geom_boxplot()   
  geom_jitter(shape = 1, position = position_jitter(0.1))  
  ylim(0, NA)   
  geom_smooth(method = "lm", se = TRUE, formula = y ~ x, aes(group = 1)) 

print(p)
 

что приводит к этой диаграмме:

введите описание изображения здесь

Теперь это линия линейной регрессии всех испытаний, но я хочу, чтобы наклон (или коэффициенты регрессии) по строкам сохранялись в переменной «наклон».

В конце я хочу, чтобы df выглядел так:

 trialnumber | Nr1 | Nr2 | Nr3 | Nr4 | Nr5 | Nr6 | slope
1           | 0.26550866 | 0.2059746|0.93470523|0.4820801|0.8209463|0.47761962|e.g. 0.07
2           | ?   | ?   | ?   | ?   | ?   | ?   |e.g. 3.81
.
.
.
 

Как я могу этого добиться? Я уже изучал apply функцию, но не мог понять, как это использовать.

Заранее большое вам спасибо!

Ответ №1:

Вы действительно можете просто использовать apply . Для этого требуется только, чтобы вы знали индексы своих столбцов. Здесь я указал 2:7 , но для ваших собственных данных вы могли бы получить правильные индексы, указав, например grep("Nr", names(foo)) . Вам нужно убедиться, что столбцы расположены в правильном порядке в вашем фрейме данных, как и в вашем примере.

 foo$slope <- apply(foo[2:7], 1, function(x) coef(lm(x ~ seq(x)))[2])

foo
#>    trialNumber        Nr1       Nr2        Nr3       Nr4       Nr5        Nr6
#> 1            1 0.26550866 0.2059746 0.93470523 0.4820801 0.8209463 0.47761962
#> 2            2 0.37212390 0.1765568 0.21214252 0.5995658 0.6470602 0.86120948
#> 3            3 0.57285336 0.6870228 0.65167377 0.4935413 0.7829328 0.43809711
#> 4            4 0.90820779 0.3841037 0.12555510 0.1862176 0.5530363 0.24479728
#> 5            5 0.20168193 0.7698414 0.26722067 0.8273733 0.5297196 0.07067905
#> 6            6 0.89838968 0.4976992 0.38611409 0.6684667 0.7893562 0.09946616
#> 7            7 0.94467527 0.7176185 0.01339033 0.7942399 0.0233312 0.31627171
#> 8            8 0.66079779 0.9919061 0.38238796 0.1079436 0.4772301 0.51863426
#> 9            9 0.62911404 0.3800352 0.86969085 0.7237109 0.7323137 0.66200508
#> 10          10 0.06178627 0.7774452 0.34034900 0.4112744 0.6927316 0.40683019
#>          slope
#> 1   0.07008128
#> 2   0.12126747
#> 3  -0.01554811
#> 4  -0.07855978
#> 5  -0.02329221
#> 6  -0.08106554
#> 7  -0.12697229
#> 8  -0.07226543
#> 9   0.03072317
#> 10  0.04405726

 

Ответ №2:

 bar <- reshape2::melt(foo[,-8], id.var = "trialNumber")

#create x values
#this assumes that the column names are exactly as shown
bar$variable <- as.integer(bar$variable)

library(nlme)
fit <- lmList(value ~ variable | trialNumber, data = bar)

#this assumes trial numbers are sorted in foo
foo$slope <- coef(fit)[, "variable"]