Ошибка во вложенном цикле с использованием агрегатной функции

#r #dataframe #dplyr #aggregate #nested-loops

#r #фрейм данных #dplyr #агрегат #вложенные циклы

Вопрос:

У меня есть data.frame, где я хочу вычислить минимальное, среднее и максимальное значение и период (количество месяцев с положительными значениями) из годовых данных для каждого участка, вложенного в каждый год и каждый участок. Я пытаюсь использовать вложенные циклы и агрегатную функцию для этого, но продолжаю сталкиваться с ошибками.

Это то, что я пробовал до сих пор

 DT5 <- NULL
for(i in levels(DT4$Site)) {
  for(j in levels(DT4$Year)) {
    tmp <- subset(subset(DT4, Site == i), Year== j)
    min <- aggregate(tmp[,5], list(tmp$Plot), min)
    mean <- aggregate(tmp[,5], list(tmp$Plot), mean)
    max <- aggregate(tmp[,5], list(tmp$Plot), max)
    per <- sum(tmp[,5] > 0)
    tmp <- cbind(rep(i, nrow(mean)), rep(j, nrow(mean)), tmp$Year, mean)
  }
  if(is.null(DT5)){DT5<-tmp} else {DT5<-rbind(DT5,tmp)} 
}
  

где DT4 — это фрейм данных со столбцами Site, Year, Month, Plot и WatLev

В конечном счете, я хочу получить data.frame со столбцами Site, Year, Plot, min, mean, max и per, рассчитанными для каждого графика, на каждом сайте за каждый год.

Вот пример набора данных:

 Site <- rep(rep(c("SiteA", "SiteB", "SiteC"), each=144),times=3)
Year <- rep(rep(2001:2003, each=48),times=3)
Month <- rep(rep(rep(c("Jan", "Feb", "Mar", "Apr", "May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec"), each=4), times=3),3)
Plot <- rep(rep(c("A", "B", "C", "D"), times=36),3)
WatLev <- runif(1296, -50, 5)
DT4 <- cbind(Site, Year, Month, Plot, WatLev)
  

Комментарии:

1. Эй, Кристофер, похоже, вы можете полностью избежать этих вложенных циклов, используя dplyr (например, с group_by() помощью and summarise() ). Если вы можете предоставить некоторые примеры ваших данных DT4 , мы можем дать вам несколько практических решений.

2. Готово! Спасибо @Stephan

Ответ №1:

хорошо, попробуйте это:

 library(dplyr)
DT4 %>% as_tibble() %>%
  mutate(WatLev = as.numeric(WatLev)) %>% 
  group_by(Site, Year) %>% 
  summarise(min = min(WatLev, na.rm = TRUE),
            mean = mean(WatLev, na.rm = TRUE),
            max = max(WatLev, na.rm = TRUE),
            per = sum(WatLev > 0))
  

вывод:

 # A tibble: 9 x 6
# Groups:   Site [3]
  Site  Year    min  mean   max   per
  <chr> <chr> <dbl> <dbl> <dbl> <int>
1 SiteA 2001  -49.8 -24.3  4.76    11
2 SiteA 2002  -50.0 -23.6  4.98     9
3 SiteA 2003  -49.2 -20.7  4.76    16
4 SiteB 2001  -49.3 -21.4  4.85    11
5 SiteB 2002  -49.7 -19.0  4.72    19
6 SiteB 2003  -50.0 -22.0  4.89    17
7 SiteC 2001  -49.2 -20.4  4.97    14
8 SiteC 2002  -49.6 -22.2  4.28    13
9 SiteC 2003  -49.0 -23.3  4.85    14
  

Комментарии:

1. Спасибо @Stephan Работает очень хорошо, за исключением того, что мне пришлось добавить график в group_by (сайт, год) Приветствия

2. Ах, отлично. Я этого не видел. Но приятно, что это сработало для вас.