Как извлечь максимальное значение из списка в списке col и добавить его в качестве нового столбца в tibble?

#r #purrr #dplyr

Вопрос:

У меня есть набор данных ответов на анкету, и я хочу определить респондентов, которые дают один и тот же ответ на ряд вопросов. Используя base::rle, я получаю длину пробега в новом столбце списка; Я хочу извлечь максимальную длину пробега для каждого случая и добавить эти значения в качестве нового столбца.

 library(tidyverse)
x <- tribble(
    ~x1, ~x2, ~x3, ~x4, ~x5, ~x6,
    1,  1, 1, 1, 1, 1, 
    3, 3, 3, 2, 5, 3,
    3, 3, 3, 3, 3, 3,
    4, 4, 5, 5, 5, 5 )
# Add list col of runs
x <- x %>% 
    rowwise() %>% 
    mutate(runs = list(base::rle(c(x1, x2, x3, x4, x5, x6))))
# The list col is a list with 2 elements, 'lengths' and 'values'
str(x$runs[1])
#> List of 1
#>  $ :List of 2
#>   ..$ lengths: int 6
#>   ..$ values : num 1
#>   ..- attr(*, "class")= chr "rle"
# I can obtain max values of "lengths" for each row
map_int(map(x$runs, "lengths"), max)
#> [1] 6 3 6 4
# But I can't work out how to use 'mutate' to create a new variable containing 
# the maximum for each case. I tried the following but it doesn't work.
x <- x %>% 
    rowwise() %>% 
    mutate(run_max = map_int(map(x$runs, "lengths"), max))
#> Error: Problem with `mutate()` column `run_max`.
#> i `run_max = map_int(map(x$runs, "lengths"), max)`.
#> i `run_max` must be size 1, not 4.
#> i Did you mean: `run_max = list(map_int(map(x$runs, "lengths"), max))` ?
#> i The error occurred in row 1.
 

Создано 2021-09-17 пакетом reprex (v2.0.1)

Ответ №1:

Нам нужно ungroup

 library(dplyr)
library(purrr)
x %>% 
    rowwise() %>% ungroup %>%
    mutate(run_max = map_int(map(runs, "lengths"), max))
# A tibble: 4 x 8
     x1    x2    x3    x4    x5    x6 runs   run_max
  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <list>   <int>
1     1     1     1     1     1     1 <rle>        6
2     3     3     3     2     5     3 <rle>        3
3     3     3     3     3     3     3 <rle>        6
4     4     4     5     5     5     5 <rle>        4
 

Или rowwise группировка вообще не нужна, если намерение состоит в том, чтобы выполнить цикл с map

 x %>% 
    ungroup %>%
    mutate(run_max = map_int(map(runs, "lengths"), max))
 

Когда мы используем rowwise , нам не нужно map извлекать

 x %>%
    rowwise %>% 
    mutate(run_max = max(runs$lengths)) %>%
    ungroup
# A tibble: 4 x 8
     x1    x2    x3    x4    x5    x6 runs   run_max
  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <list>   <int>
1     1     1     1     1     1     1 <rle>        6
2     3     3     3     2     5     3 <rle>        3
3     3     3     3     3     3     3 <rle>        6
4     4     4     5     5     5     5 <rle>        4