Как выполнить gsub через список имен в цикле

#r #for-loop

#r #для цикла

Вопрос:

У меня есть пакет образцов, которые я хочу отправить для обработки в моем университетском кластере. У меня есть более 1000 образцов, которые мне нужно запустить. Вместо того, чтобы вручную создавать сценарии, мне было интересно, я мог бы создать цикл for для замены идентификаторов образцов. Каждый сценарий по сути одинаков, мне просто нужно изменить идентификатор образца и местоположение файла.

 df <- structure(list(V1 = c("#!/bin/bash", "#BSUB -W 1440", "#BSUB -n 16", 
                            "#BSUB -x", "#BSUB -R "rusage[mem=4000] span[hosts=1]"", "#BSUB -o /gpfs_common/share01/files/abc123.out.%J.txt", 
                            "#BSUB -e /gpfs_common/share01/files/abc123.err.%J.txt", "", 
                            "", "", "", "mcli cp def456/abc123 /panfs/roc/groups/0/location/data.base", 
                            "gzip /panfs/roc/groups/0/location/data.base/abc123", "mcli mv /panfs/roc/groups/0/location/data.base/abc123.gz def456/", 
                            "", "", "#BSUB -J abc123", "ttt", "", "", "", "", "")), row.names = c(NA, 
                                                                                                     -23L), class = c("data.table", "data.frame"))

names <- list(V1 = c("D00268.merged.dedup.realn.haplotypecaller.g.vcf", 
                         "D00316.merged.dedup.realn.haplotypecaller.g.vcf", "D00426.merged.dedup.realn.haplotypecaller.g.vcf", 
                         "D00432.merged.dedup.realn.haplotypecaller.g.vcf", "D00474.merged.dedup.realn.haplotypecaller.g.vcf", 
                         "D00510.merged.dedup.realn.haplotypecaller.g.vcf", "D00574.merged.dedup.realn.haplotypecaller.g.vcf", 
                         "D00607.merged.dedup.realn.haplotypecaller.g.vcf", "D00619.merged.dedup.realn.haplotypecaller.g.vcf", 
                         "D00662.merged.dedup.realn.haplotypecaller.g.vcf"))
    
locations <- list(V1 = c("s3/lab/wgs/yrkt/D00268/gvcf/", "s3/lab/wgs/dach/D00316/gvcf/", 
                         "s3/lab/wgs/mnpd/D00426/gvcf/", "s3/lab/wgs/yrkt/D00432/gvcf/", 
                         "s3/lab/wgs/ckcs/D00474/gvcf/", "s3/lab/wgs/lbrt/D00510/gvcf/", 
                         "s3/lab/wgs/shlt/D00574/gvcf/", "s3/lab/wgs/shlt/D00607/gvcf/", 
                         "s3/lab/wgs/mnsc/D00619/gvcf/", "s3/lab/wgs/gtdn/D00662/gvcf/"
))
  

Итак, df — это просто мастер-скрипт, через который я хотел запустить цикл for. Я изменил имя образца на «abc123», а местоположение образца на «def456» в главном скрипте, чтобы я мог использовать что-то вроде gsub, которое может распознавать эти два шаблона и заменять их идентификатором образца и местоположением образца. Я надеялся создать текстовый файл, который выглядел бы примерно так, когда я закончу.

 #!/bin/bash
#BSUB -W 1440
#BSUB -n 16
#BSUB -x
#BSUB -R "rusage[mem=4000] span[hosts=1]"
#BSUB -o /gpfs_common/share01/files/D00268.merged.dedup.realn.haplotypecaller.g.vcf.out.%J.txt
#BSUB -e /gpfs_common/share01/files/D00268.merged.dedup.realn.haplotypecaller.g.vcf.err.%J.txt




mcli cp s3/lab/wgs/yrkt/D00268/gvcf/D00268.merged.dedup.realn.haplotypecaller.g.vcf /panfs/roc/groups/0/location/data.base
gzip /panfs/roc/groups/0/location/data.base/D00268.merged.dedup.realn.haplotypecaller.g.vcf
mcli mv /panfs/roc/groups/0/location/data.base/D00268.merged.dedup.realn.haplotypecaller.g.vcf.gz s3/lab/wgs/yrkt/D00268/gvcf/


#BSUB -J D00268.merged.dedup.realn.haplotypecaller.g.vcf
        
  

Я думал, что цикл for будет самым простым, что можно сделать здесь, но я открыт для предложений. Надеюсь, все это имеет смысл. Дайте мне знать, если у вас возникнут какие-либо вопросы

Я использовал этот цикл for в прошлом, но я никогда не использовал цикл for для gsub через список

 for(i in 1:nrow(df)){
  df[i,'V1'] <- gsub("abc123", "D00268.merged.dedup.realn.haplotypecaller.g.vcf", df[i,'V1'])
  df[i,'V1'] <- gsub("def456", "s3/lab/wgs/yrkt/D00268/gvcf/", df[i,'V1'])
  
}
  

Комментарии:

1. не могли бы вы рассказать нам логику, которую вы используете для замены идентификаторов?

2. Я думаю, что я отредактировал вопросы, чтобы ответить на ваш вопрос

3. Вам нужен список из 10 фреймов данных? (По одному для каждого элемента names$v1 / locations$V1 )

4. Это правильно. Фреймы данных, которые я затем могу записать в текстовые файлы, которые я могу отправить для каждого образца

5. в вашем примере for-цикл "def345" , вероятно "def456" , должен соответствовать заполнителю в df

Ответ №1:

Чтобы придерживаться идеи for-loop и изменить предложенный вами подход, вы можете сделать что-то вроде:

 for(i in 1:length(locations[[1]])){

df2 <- df
df2[,'V1'] <- gsub("abc123", names[['V1']][i], df2[,'V1'])
df2[,'V1'] <- gsub("def456", locations[['V1']][i], df2[,'V1'])
fileConn<-file(paste0("script_", i, ".sh" ))
writeLines(df2$V1, fileConn)
close(fileConn)

}
  

Ответ №2:

purrr::map2 может применять функцию к элементам двух векторов.

 res <- purrr::map2(
  names$V1,
  locations$V1, 
  function(name, location) {
    result <- gsub("abc123", name, df$V1)
    result <- gsub("def456", location, result)
    result
  }
)

length(res)
#> [1] 10
  

Вот первый результат

 cat(paste0(res[[1]], collapse = "n"))
#> #!/bin/bash
#> #BSUB -W 1440
#> #BSUB -n 16
#> #BSUB -x
#> #BSUB -R "rusage[mem=4000] span[hosts=1]"
#> #BSUB -o /gpfs_common/share01/files/D00268.merged.dedup.realn.haplotypecaller.g.vcf.out.%J.txt
#> #BSUB -e /gpfs_common/share01/files/D00268.merged.dedup.realn.haplotypecaller.g.vcf.err.%J.txt
#> 
#> 
#> 
#> 
#> mcli cp s3/lab/wgs/yrkt/D00268/gvcf//D00268.merged.dedup.realn.haplotypecaller.g.vcf /panfs/roc/groups/0/location/data.base
#> gzip /panfs/roc/groups/0/location/data.base/D00268.merged.dedup.realn.haplotypecaller.g.vcf
#> mcli mv /panfs/roc/groups/0/location/data.base/D00268.merged.dedup.realn.haplotypecaller.g.vcf.gz s3/lab/wgs/yrkt/D00268/gvcf//
#>   
#>   
#>   #BSUB -J D00268.merged.dedup.realn.haplotypecaller.g.vcf