#r #purrr #dplyr
Вопрос:
У меня есть набор данных ответов на анкету, и я хочу определить респондентов, которые дают один и тот же ответ на ряд вопросов. Используя base::rle, я получаю длину пробега в новом столбце списка; Я хочу извлечь максимальную длину пробега для каждого случая и добавить эти значения в качестве нового столбца.
library(tidyverse)
x <- tribble(
~x1, ~x2, ~x3, ~x4, ~x5, ~x6,
1, 1, 1, 1, 1, 1,
3, 3, 3, 2, 5, 3,
3, 3, 3, 3, 3, 3,
4, 4, 5, 5, 5, 5 )
# Add list col of runs
x <- x %>%
rowwise() %>%
mutate(runs = list(base::rle(c(x1, x2, x3, x4, x5, x6))))
# The list col is a list with 2 elements, 'lengths' and 'values'
str(x$runs[1])
#> List of 1
#> $ :List of 2
#> ..$ lengths: int 6
#> ..$ values : num 1
#> ..- attr(*, "class")= chr "rle"
# I can obtain max values of "lengths" for each row
map_int(map(x$runs, "lengths"), max)
#> [1] 6 3 6 4
# But I can't work out how to use 'mutate' to create a new variable containing
# the maximum for each case. I tried the following but it doesn't work.
x <- x %>%
rowwise() %>%
mutate(run_max = map_int(map(x$runs, "lengths"), max))
#> Error: Problem with `mutate()` column `run_max`.
#> i `run_max = map_int(map(x$runs, "lengths"), max)`.
#> i `run_max` must be size 1, not 4.
#> i Did you mean: `run_max = list(map_int(map(x$runs, "lengths"), max))` ?
#> i The error occurred in row 1.
Создано 2021-09-17 пакетом reprex (v2.0.1)
Ответ №1:
Нам нужно ungroup
library(dplyr)
library(purrr)
x %>%
rowwise() %>% ungroup %>%
mutate(run_max = map_int(map(runs, "lengths"), max))
# A tibble: 4 x 8
x1 x2 x3 x4 x5 x6 runs run_max
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <list> <int>
1 1 1 1 1 1 1 <rle> 6
2 3 3 3 2 5 3 <rle> 3
3 3 3 3 3 3 3 <rle> 6
4 4 4 5 5 5 5 <rle> 4
Или rowwise
группировка вообще не нужна, если намерение состоит в том, чтобы выполнить цикл с map
x %>%
ungroup %>%
mutate(run_max = map_int(map(runs, "lengths"), max))
Когда мы используем rowwise
, нам не нужно map
извлекать
x %>%
rowwise %>%
mutate(run_max = max(runs$lengths)) %>%
ungroup
# A tibble: 4 x 8
x1 x2 x3 x4 x5 x6 runs run_max
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <list> <int>
1 1 1 1 1 1 1 <rle> 6
2 3 3 3 2 5 3 <rle> 3
3 3 3 3 3 3 3 <rle> 6
4 4 4 5 5 5 5 <rle> 4