Расширение набора данных электронной почты в R

#r #dplyr #tidyr #tibble #tidytext

Вопрос:

У меня есть огромное количество данных моей электронной почты, которые выглядят следующим образом:

 library(dplyr)

emails <- tibble(
  from = c('employee.1@xtra.co','employee.5@xtra.co','employee.1@xtra.co',
           'employee.3@xtra.co','employee.1@xtra.co'),
  to = list(
    c('employee.5@xtra.co', 'employee.3xtra.co'),
    c('employee.3@xtra.co', 'employee.1@xtra.co'),
    c('employee.2@xtra.co'),
    c('employee.1@xtra.co'),
    c('employee.3@xtra.co','employee.5@xtra.co','employee.6@xtra.co')),
  
  cc = list(
    c('employee.2xtra.co', 'employee.4xtra.co', 'employee.6xtra.co'),
    c('employee.1xtra.co', 'employee.8xtra.co', 'employee.6xtra.co'),
    NA,
    c('employee.2xtra.co', 'employee.4xtra.co'),
    c('employee.2xtra.co', 'employee.6xtra.co'))
)

emails

# A tibble: 5 x 3
  from               to        cc       
  <chr>              <list>    <list>   
1 employee.1@xtra.co <chr [2]> <chr [3]>
2 employee.5@xtra.co <chr [2]> <chr [3]>
3 employee.1@xtra.co <chr [1]> <lgl [1]>
4 employee.3@xtra.co <chr [1]> <chr [2]>
5 employee.1@xtra.co <chr [3]> <chr [2]>

Мне нужна ваша помощь, чтобы иметь возможность расширять каждую запись для каждой комбинации. Например, то, чего я хочу достичь для строки 1, это:

 from                to                  cc
employee.1@xtra.co  employee.5@xtra.co  employee.2xtra.co
employee.1@xtra.co  employee.5@xtra.co  employee.4xtra.co
employee.1@xtra.co  employee.5@xtra.co  employee.6xtra.co
employee.1@xtra.co  employee.3xtra.co   employee.2xtra.co
employee.1@xtra.co  employee.3xtra.co   employee.4xtra.co
employee.1@xtra.co  employee.3xtra.co   employee.6xtra.co

Большое вам спасибо за ваше время.

Ответ №1:

Мы можем подать unnest заявку дважды.

 library(dplyr)
library(tidyr)

emails2 <- emails %>%
  unnest(cols = "to") %>%
  unnest(cols = "cc")
head(emails2)
# # A tibble: 6 x 3
#   from               to                 cc               
#   <chr>              <chr>              <chr>            
# 1 employee.1@xtra.co employee.5@xtra.co employee.2xtra.co
# 2 employee.1@xtra.co employee.5@xtra.co employee.4xtra.co
# 3 employee.1@xtra.co employee.5@xtra.co employee.6xtra.co
# 4 employee.1@xtra.co employee.3xtra.co  employee.2xtra.co
# 5 employee.1@xtra.co employee.3xtra.co  employee.4xtra.co
# 6 employee.1@xtra.co employee.3xtra.co  employee.6xtra.co

Если у вас есть более двух столбцов для расширения, ниже приведен один из подходов. Сначала определите столбцы, которые являются списком. Сохраните имена столбцов в names_target , а затем используйте цикл for для повторного применения unnest функции.

 names_target <- emails %>%
  select(where(is.list)) %>%
  names()

temp <- emails

for (i in names_target){
  temp <- temp %>% unnest(cols = all_of(i))
}

identical(temp, emails2)
# [1] TRUE

Вопрос:

Ответ №1:

Вам также может понравиться

Как определить ответ json-строк в OpenAPI?

Арифметические операции над большим кадром данных

Регулярное выражение — сопоставление слова перед одиночным символом, но не двойным символом?