Запуск правил snakemake итеративно

#python #config #sample #snakemake

#python #конфигурация #пример #snakemake

Вопрос:

Итак, я подумал, что наконец-то понял snakemake, но при попытке запустить несколько разных файлов данных я понял, что это работает не так, как я думал. Это файл Snakefile:

 import pandas as pd

configfile: "config.json"
experiments = pd.read_csv(config["experiments"], sep = 't')
experiments['Name'] = [filename.split('/')[-1].split('.fa')[0] for filename in experiments['Files']]

rule all:
    input:
        expand("{output}/Preprocess/Trimmomatic/quality_trimmed_{name}{fr}.fq", output = config["output"],
            fr = (['_forward_paired', '_reverse_paired'] if experiments["Files"].str.contains(',').tolist() else ''),
               name = experiments['Name'])

rule preprocess:
    input:
        experiments["Files"].str.split(',')
    output:
        expand("{output}/Preprocess/Trimmomatic/quality_trimmed_{name}{fr}.fq", output = config["output"],
            fr = (['_forward_paired', '_reverse_paired'] if experiments["Files"].str.contains(',').tolist() else ''),
               name = experiments['Name'])
    threads:
        config["threads"]
    run:
        shell("python preprocess.py -i {reads} -t {threads} -o {output} -adaptdir MOSCA/Databases/illumina_adapters -rrnadbs MOSCA/Databases/rRNA_databases -d {data_type}",
            output = config["output"], data_type = experiments["Data type"].tolist(), reads = ",".join(input))
  

это файл конфигурации:

 {
  "output": "test_snakemake",
  "threads": 14,
  "experiments": "experiments.tsv"
}
  

и это файл экспериментов

 Files   Sample  Data type   Condition
path/to/mg_R1.fastq,path/to/mg_R2.fastq Sample  dna
path/to/a/0.01/mt_0.01a_R1.fastq,path/to/a/0.01/mt_0.01a_R2.fastq   Sample  rna c1
path/to/b/0.01/mt_0.01b_R1.fastq,path/to/b/0.01/mt_0.01b_R2.fastq   Sample  rna c1
path/to/c/0.01/mt_0.01c_R1.fastq,path/to/c/0.01/mt_0.01c_R2.fastq   Sample  rna c1
path/to/a/1/mt_1a_R1.fastq,path/to/a/1/mt_1a_R2.fastq   Sample  rna c2
path/to/b/1/mt_1b_R1.fastq,path/to/b/1/mt_1b_R2.fastq   Sample  rna c2
path/to/c/1/mt_1c_R1.fastq,path/to/c/1/mt_1c_R2.fastq   Sample  rna c2
path/to/a/100/mt_100a_R1.fastq,path/to/a/100/mt_100a_R2.fastq   Sample  rna c3
path/to/b/100/mt_100b_R1.fastq,path/to/b/100/mt_100b_R2.fastq   Sample  rna c3
path/to/c/100/mt_100c_R1.fastq,path/to/c/100/mt_100c_R2.fastq   Sample  rna c3
  

Что я хочу сделать, так это заставить правило предварительной обработки обрабатывать каждую строку отдельно. Я думал, что именно так shell интерпретирует команду, и она будет запускать команду python preprocess.py -i path/to/mg_R1.fastq,path/to/mg_R2.fastq -t 14 -o test_snakemake -adaptdir MOSCA/Databases/illumina_adapters -rrnadbs MOSCA/Databases/rRNA_databases -d dna , вместо этого она пытается объединить ВСЕ строки и запустить это для всех образцов одновременно python preprocess.py -i path/to/mg_R1.fastq,path/to/mg_R2.fastq,path/to/a/0.01/mt_0.01a_R1.fastq,path/to/a/0.01/mt_0.01a_R2.fastq,path/to/b/0.01/mt_0.01b_R1.fastq,path/to/b/0.01/mt_0.01b_R2.fastq,... -t 14 -o test_snakemake -adaptdir MOSCA/Databases/illumina_adapters -rrnadbs MOSCA/Databases/rRNA_databases -d dna rna rna rna rna rna rna rna rna rna .

Как я могу заставить snakemake рассматривать каждую строку отдельно?

Ответ №1:

Это очень распространенная ошибка. Следует помнить, что правила должны работать для одного образца. Snakemake будет использовать ваши пути (с подстановочными знаками) и генерировать конкретные задания из правил. Вы написали что-то, что принимает все входные и все выходные данные, тогда, я полагаю, preprocess.py ожидает один ввод / вывод.

Вместо этого рассматривайте по одному файлу за раз. Для вывода, "{output}/Preprocess/Trimmomatic/quality_trimmed_{name}{fr}.fq" , как вы создаете этот файл? Вам нужно будет сопоставить с входным файлом во фрейме данных ваших экспериментов, используя имя в качестве ключа.

 def preprocess_input(wildcards):
    # get files with matching names
    df = experiments.loc[experiments['Name'] == wildcards.name, 'Files']
    # get first value (in case multiple) and split on commas
    return df.iloc[0].split(',')

rule preprocess:
    input:
        preprocess_input
    output:
        "{output}/Preprocess/Trimmomatic/quality_trimmed_{name}{fr}.fq"
    threads:
        config["threads"]
    shell:
        'python preprocess.py -i {reads} -t {threads} -o {config[output]} ...'
  

Это использует функцию ввода для поиска правильных входных файлов из выходного файла. Это не идеально, но должно привести вас в правильном направлении.

Комментарии:

1. Большое вам спасибо! Использование версии вашего решения заставило его работать! Я мог бы просто начать понимать подстановочные знаки сейчас…