#r #for-loop
#r #для цикла
Вопрос:
У меня есть пакет образцов, которые я хочу отправить для обработки в моем университетском кластере. У меня есть более 1000 образцов, которые мне нужно запустить. Вместо того, чтобы вручную создавать сценарии, мне было интересно, я мог бы создать цикл for для замены идентификаторов образцов. Каждый сценарий по сути одинаков, мне просто нужно изменить идентификатор образца и местоположение файла.
df <- structure(list(V1 = c("#!/bin/bash", "#BSUB -W 1440", "#BSUB -n 16",
"#BSUB -x", "#BSUB -R "rusage[mem=4000] span[hosts=1]"", "#BSUB -o /gpfs_common/share01/files/abc123.out.%J.txt",
"#BSUB -e /gpfs_common/share01/files/abc123.err.%J.txt", "",
"", "", "", "mcli cp def456/abc123 /panfs/roc/groups/0/location/data.base",
"gzip /panfs/roc/groups/0/location/data.base/abc123", "mcli mv /panfs/roc/groups/0/location/data.base/abc123.gz def456/",
"", "", "#BSUB -J abc123", "ttt", "", "", "", "", "")), row.names = c(NA,
-23L), class = c("data.table", "data.frame"))
names <- list(V1 = c("D00268.merged.dedup.realn.haplotypecaller.g.vcf",
"D00316.merged.dedup.realn.haplotypecaller.g.vcf", "D00426.merged.dedup.realn.haplotypecaller.g.vcf",
"D00432.merged.dedup.realn.haplotypecaller.g.vcf", "D00474.merged.dedup.realn.haplotypecaller.g.vcf",
"D00510.merged.dedup.realn.haplotypecaller.g.vcf", "D00574.merged.dedup.realn.haplotypecaller.g.vcf",
"D00607.merged.dedup.realn.haplotypecaller.g.vcf", "D00619.merged.dedup.realn.haplotypecaller.g.vcf",
"D00662.merged.dedup.realn.haplotypecaller.g.vcf"))
locations <- list(V1 = c("s3/lab/wgs/yrkt/D00268/gvcf/", "s3/lab/wgs/dach/D00316/gvcf/",
"s3/lab/wgs/mnpd/D00426/gvcf/", "s3/lab/wgs/yrkt/D00432/gvcf/",
"s3/lab/wgs/ckcs/D00474/gvcf/", "s3/lab/wgs/lbrt/D00510/gvcf/",
"s3/lab/wgs/shlt/D00574/gvcf/", "s3/lab/wgs/shlt/D00607/gvcf/",
"s3/lab/wgs/mnsc/D00619/gvcf/", "s3/lab/wgs/gtdn/D00662/gvcf/"
))
Итак, df — это просто мастер-скрипт, через который я хотел запустить цикл for. Я изменил имя образца на «abc123», а местоположение образца на «def456» в главном скрипте, чтобы я мог использовать что-то вроде gsub, которое может распознавать эти два шаблона и заменять их идентификатором образца и местоположением образца. Я надеялся создать текстовый файл, который выглядел бы примерно так, когда я закончу.
#!/bin/bash
#BSUB -W 1440
#BSUB -n 16
#BSUB -x
#BSUB -R "rusage[mem=4000] span[hosts=1]"
#BSUB -o /gpfs_common/share01/files/D00268.merged.dedup.realn.haplotypecaller.g.vcf.out.%J.txt
#BSUB -e /gpfs_common/share01/files/D00268.merged.dedup.realn.haplotypecaller.g.vcf.err.%J.txt
mcli cp s3/lab/wgs/yrkt/D00268/gvcf/D00268.merged.dedup.realn.haplotypecaller.g.vcf /panfs/roc/groups/0/location/data.base
gzip /panfs/roc/groups/0/location/data.base/D00268.merged.dedup.realn.haplotypecaller.g.vcf
mcli mv /panfs/roc/groups/0/location/data.base/D00268.merged.dedup.realn.haplotypecaller.g.vcf.gz s3/lab/wgs/yrkt/D00268/gvcf/
#BSUB -J D00268.merged.dedup.realn.haplotypecaller.g.vcf
Я думал, что цикл for будет самым простым, что можно сделать здесь, но я открыт для предложений. Надеюсь, все это имеет смысл. Дайте мне знать, если у вас возникнут какие-либо вопросы
Я использовал этот цикл for в прошлом, но я никогда не использовал цикл for для gsub через список
for(i in 1:nrow(df)){
df[i,'V1'] <- gsub("abc123", "D00268.merged.dedup.realn.haplotypecaller.g.vcf", df[i,'V1'])
df[i,'V1'] <- gsub("def456", "s3/lab/wgs/yrkt/D00268/gvcf/", df[i,'V1'])
}
Комментарии:
1. не могли бы вы рассказать нам логику, которую вы используете для замены идентификаторов?
2. Я думаю, что я отредактировал вопросы, чтобы ответить на ваш вопрос
3. Вам нужен список из 10 фреймов данных? (По одному для каждого элемента
names$v1
/locations$V1
)4. Это правильно. Фреймы данных, которые я затем могу записать в текстовые файлы, которые я могу отправить для каждого образца
5. в вашем примере for-цикл
"def345"
, вероятно"def456"
, должен соответствовать заполнителю вdf
Ответ №1:
Чтобы придерживаться идеи for-loop и изменить предложенный вами подход, вы можете сделать что-то вроде:
for(i in 1:length(locations[[1]])){
df2 <- df
df2[,'V1'] <- gsub("abc123", names[['V1']][i], df2[,'V1'])
df2[,'V1'] <- gsub("def456", locations[['V1']][i], df2[,'V1'])
fileConn<-file(paste0("script_", i, ".sh" ))
writeLines(df2$V1, fileConn)
close(fileConn)
}
Ответ №2:
purrr::map2
может применять функцию к элементам двух векторов.
res <- purrr::map2(
names$V1,
locations$V1,
function(name, location) {
result <- gsub("abc123", name, df$V1)
result <- gsub("def456", location, result)
result
}
)
length(res)
#> [1] 10
Вот первый результат
cat(paste0(res[[1]], collapse = "n"))
#> #!/bin/bash
#> #BSUB -W 1440
#> #BSUB -n 16
#> #BSUB -x
#> #BSUB -R "rusage[mem=4000] span[hosts=1]"
#> #BSUB -o /gpfs_common/share01/files/D00268.merged.dedup.realn.haplotypecaller.g.vcf.out.%J.txt
#> #BSUB -e /gpfs_common/share01/files/D00268.merged.dedup.realn.haplotypecaller.g.vcf.err.%J.txt
#>
#>
#>
#>
#> mcli cp s3/lab/wgs/yrkt/D00268/gvcf//D00268.merged.dedup.realn.haplotypecaller.g.vcf /panfs/roc/groups/0/location/data.base
#> gzip /panfs/roc/groups/0/location/data.base/D00268.merged.dedup.realn.haplotypecaller.g.vcf
#> mcli mv /panfs/roc/groups/0/location/data.base/D00268.merged.dedup.realn.haplotypecaller.g.vcf.gz s3/lab/wgs/yrkt/D00268/gvcf//
#>
#>
#> #BSUB -J D00268.merged.dedup.realn.haplotypecaller.g.vcf