Агрегировать tibble на основе последовательных значений в логическом столбце

#r #dplyr #tibble

Вопрос:

У меня довольно простая проблема, но я изо всех сил пытаюсь найти решение, которое не требует стены кода и сложных циклов.

У меня есть сводная таблица df для набора данных почасовых временных рядов, где каждое наблюдение принадлежит группе. Я хочу объединить некоторые из этих групп на основе логического столбца в сводной таблице. Логический столбец merge_with_next указывает, следует ли объединить данную группу со следующей группой (на одну строку ниже). Объединение эффективно происходит путем обновления end , значения и удаления строк:

 library(dplyr)

# Demo data
df <- tibble(
  group = 1:12,
  start = seq.POSIXt(as.POSIXct("2019-01-01 00:00"), as.POSIXct("2019-01-12 00:00"), by = "1 day"),
  end = seq.POSIXt(as.POSIXct("2019-01-01 23:59"), as.POSIXct("2019-01-12 23:59"), by = "1 day"), 
  merge_with_next = rep(c(TRUE, TRUE, FALSE), 4)
)

df
#> # A tibble: 12 x 4
#>    group start               end                 merge_with_next
#>    <int> <dttm>              <dttm>              <lgl>          
#>  1     1 2019-01-01 00:00:00 2019-01-01 23:59:00 TRUE           
#>  2     2 2019-01-02 00:00:00 2019-01-02 23:59:00 TRUE           
#>  3     3 2019-01-03 00:00:00 2019-01-03 23:59:00 FALSE          
#>  4     4 2019-01-04 00:00:00 2019-01-04 23:59:00 TRUE           
#>  5     5 2019-01-05 00:00:00 2019-01-05 23:59:00 TRUE           
#>  6     6 2019-01-06 00:00:00 2019-01-06 23:59:00 FALSE          
#>  7     7 2019-01-07 00:00:00 2019-01-07 23:59:00 TRUE           
#>  8     8 2019-01-08 00:00:00 2019-01-08 23:59:00 TRUE           
#>  9     9 2019-01-09 00:00:00 2019-01-09 23:59:00 FALSE          
#> 10    10 2019-01-10 00:00:00 2019-01-10 23:59:00 TRUE           
#> 11    11 2019-01-11 00:00:00 2019-01-11 23:59:00 TRUE           
#> 12    12 2019-01-12 00:00:00 2019-01-12 23:59:00 FALSE

# Desired result
desired <- tibble(
  group = c(1, 4, 7, 9),
  start = c("2019-01-01 00:00", "2019-01-04 00:00", "2019-01-07 00:00", "2019-01-10 00:00"),
  end = c("2019-01-03 23:59", "2019-01-06 23:59", "2019-01-09 23:59", "2019-01-12 23:59")
)

desired
#> # A tibble: 4 x 3
#>   group start            end             
#>   <dbl> <chr>            <chr>           
#> 1     1 2019-01-01 00:00 2019-01-03 23:59
#> 2     4 2019-01-04 00:00 2019-01-06 23:59
#> 3     7 2019-01-07 00:00 2019-01-09 23:59
#> 4     9 2019-01-10 00:00 2019-01-12 23:59

Создано 2019-03-22 пакетом reprex (версия 0.2.1)

Я ищу короткое и понятное решение, которое не требует множества вспомогательных таблиц и циклов. Конечное значение в group столбце не имеет значения, меня интересуют только столбцы start и end из результата.

Ответ №1:

Мы можем использовать dplyr и создавать группы на основе каждого времени, когда TRUE значение встречается в merge_with_next столбце, и выбирать first значение из start и last значение из end столбца для каждой группы.

 library(dplyr)

df %>%
  group_by(temp = cumsum(!lag(merge_with_next, default = TRUE))) %>%
  summarise(group = first(group),
            start = first(start), 
            end = last(end)) %>%
  ungroup() %>%
  select(-temp)

#  group start               end     
#  <int> <dttm>              <dttm>             
#1     1 2019-01-01 00:00:00 2019-01-03 23:59:00
#2     4 2019-01-04 00:00:00 2019-01-06 23:59:00
#3     7 2019-01-07 00:00:00 2019-01-09 23:59:00
#4    10 2019-01-10 00:00:00 2019-01-12 23:59:00

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

Качайте Java2D на Java 11 и современном iMac

Можно ли использовать 2 разные таблицы примеров в Cucumber / Cuke4Duke

Где документация для BigCommerce js sdk?