Повторение определенной части строки условно

#r #dplyr #tidyverse #stringr #tidytable

#r #dplyr #tidyverse #stringr #tidytable

Вопрос:

Я хочу повторить определенную часть строки между ] и ; как количество элементов ; , разделенных предшествующим внутри [] . Таким образом, желаемый результат для [A1, AB11; A2, AB22] I1, C1 будет [A1, AB11] I1, C1; [A2, AB22] I1, C1 . Любые подсказки для начала. Спасибо

 df1 <-
  data.frame(
   String = c(
    "[A1, AB11; A2, AB22] I1, C1; [A3, AB33] I3, C1"
  , "[A4, AB44] I4, C4; [A5, AB55; A6, AB66; A7, AB77] I7, C7"
  )
  )
df1

                                                    String
1           [A1, AB11; A2, AB22] I1, C1; [A3, AB33] I3, C1
2 [A4, AB44] I4, C4; [A5, AB55; A6, AB66; A7, AB77] I7, C7


df2 <-
  data.frame(
   String = c(
    "[A1, AB11] I1, C1; [A2, AB22] I1, C1; [A3, AB33] I3, C1"
  , "[A4, AB44] I4, C4; [A5, AB55] I7, C7;[A6, AB66] I7, C7; [A7, AB77] I7, C7"
  )
  )

df2

                                                                     String
1                   [A1, AB11] I1, C1; [A2, AB22] I1, C1; [A3, AB33] I3, C1
2 [A4, AB44] I4, C4; [A5, AB55] I7, C7;[A6, AB66] I7, C7; [A7, AB77] I7, C7
 

Комментарии:

1. сколько раз вы хотите их повторить

2. Как количество элементов, разделенных ; символом внутри [] .

3. хорошо, теперь я понял вопрос

Ответ №1:

Вот базовое решение R:

 sapply(strsplit(paste0(df1$String, ";"), "\[|\]"), function(x) {
  for(i in seq_along(x))
  {
    if(i %% 2 == 0) {
      x[i] <- paste0("[", gsub(";", paste0("]", x[i   1], " ["), x[i]), "]")
    }
  }
  paste(x, collapse = "")
})
#> [1] "[A1, AB11] I1, C1;  [ A2, AB22] I1, C1; [A3, AB33] I3, C1;"                   
#> [2] "[A4, AB44] I4, C4; [A5, AB55] I7, C7; [ A6, AB66] I7, C7; [ A7, AB77] I7, C7;"
 

Ответ №2:

Я пробовал что-то подобное в прошлом и подумал, что было бы интересно адаптировать использование glue unglue пакетов и .

Начальная strsplit строка разделяется точкой с запятой, игнорируя точки с запятой между скобками.

unglue Для каждой строки будет выделено то, что находится между скобками, которые повторяются, и то, что добавляется за скобками.

 library(glue)
library(unglue)
library(purrr)

my_fun <- function(inside, outside) {
  glue("[{inside}] {outside}")
}

sapply(strsplit(df1$String, '\[[^]]*\](*SKIP)(*F)|;\s', perl = T), function(x) {
  ud <- unglue_data(x, patterns = "[{Inside}] {Outside}")
  ud_in <- map(ud[['Inside']], strsplit, split = "; ")
  ud_map <- map(seq_along(ud[['Inside']]), function(y) {
    map2(unlist(ud_in[y]), ud[['Outside']][y], my_fun)
  })
  paste(unlist(ud_map), collapse = '; ')
})
 

Вывод

 [1] "[A1, AB11] I1, C1; [A2, AB22] I1, C1; [A3, AB33] I3, C1"                   
[2] "[A4, AB44] I4, C4; [A5, AB55] I7, C7; [A6, AB66] I7, C7; [A7, AB77] I7, C7"
 

Ответ №3:

Не самое аккуратное решение, однако оно использует stringr

 str_split(df1$String, ";(?= *\[)") %>%
  map(str_match, "\[(. ?)\] (. )") %>%
   map( ~ paste(unlist(map2(paste0(str_split(.x[,2], "; ?")), .x[,3], ~ paste0("[", .x,"] ",.y ))), collapse="; ")) 
 

несколько более приятное решение:

 as_tibble(df1) %>%
  mutate(splits=str_split(String, "; *(?=\[)")) %>%
   unnest_longer(col=splits) %>%
    mutate(splits=map(str_split(splits,"\[|\] ?"), str_split, "; ?"))  %>%
     unnest_wider(splits) %>%
      mutate(val=map2(...2, ...3, ~ paste0("[", .x ,"] ", .y, collapse="; ") )) %>%
       group_by(String) %>%
        summarise(val=paste0(val, collapse="; "))
# A tibble: 2 x 2
  String                             val                                        
  <fct>                              <chr>
1 [A1, AB11; A2, AB22] I1, C1; [A3,[A1, AB11] I1, C1; [A2, AB22] I1, C1; [A3, AB33] I3, C1
2 [A4, AB44] I4, C4; [A5, AB55; A6,[A4, AB44] I4, C4; [A5, AB55] I7, C7; [A6, AB66] I7, C7; [A7, AB77] I7, C7