«Ошибка: нет такого файла или каталога» для ввода, который должен быть сгенерирован первым

#snakemake

#snakemake

Вопрос:

У меня есть два правила для STAR, STAR_genome выполняет некоторую индексацию для правила STAR, поэтому ввод STAR является прямым выводом из STAR_genome — пока все просто. Но когда я пытаюсь запустить это, правило STAR_genome игнорируется (отсутствует в списке заданий), и я получаю следующее исключение:

Ошибка FileNotFoundError: [Ошибка 2] Нет такого файла или каталога: ‘[…] ЗВЕЗДА / цветная капуста / геном / геном.ok’

Я не понимаю, почему snakemake игнорирует генерирующее правило и вместо этого просто жалуется на отсутствующий файл, поскольку он даже берет путь из того самого правила, которое должно его сгенерировать…

 rule STAR_genome:
    input: genome=lambda wildcards: config[wildcards.species]["genomefile"]
    output: ok=path.join(STAR_DIR, "{species}", "genome", "genome.ok")
    threads: 32
    envmodules:
        config["STAR"][0],
        config["STAR"][1]
    script:
        "scripts/Trinity_GG/STAR_genome.py"

############################################################################

rule STAR:
    input:
         genome=rules.STAR_genome.output.ok,
         r1=rules.trim_galore.output.r1,
         r2=rules.trim_galore.output.r2
    output:
        bam=path.join(STAR_DIR, "{species}_{rep}_Aligned.sortedByCoord.out.bam")
    threads: 32
    envmodules:
        config["STAR"][0],
        config["STAR"][1]
    script:
        "scripts/Trinity_GG/STAR.py"
 

И вот полная обратная трассировка, на всякий случай, если это может помочь.

     Traceback (most recent call last):
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/__init__.py", line 751, in snakemake
    keepmetadata=keep_metadata,
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/workflow.py", line 1000, in execute
    success = scheduler.schedule()
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/scheduler.py", line 444, in schedule
    run = self.job_selector(needrun)
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/scheduler.py", line 731, in job_selector_greedy
    c = list(map(self.job_reward, jobs))  # job rewards
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/scheduler.py", line 814, in job_reward
    input_size = job.inputsize
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/jobs.py", line 378, in inputsize
    self._inputsize = sum(f.size for f in self.input)
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/jobs.py", line 378, in <genexpr>
    self._inputsize = sum(f.size for f in self.input)
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/io.py", line 239, in wrapper
    return func(self, *args, **kwargs)
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/io.py", line 254, in wrapper
    return func(self, *args, **kwargs)
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/io.py", line 553, in size
    return self.size_local
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/io.py", line 558, in size_local
    self.check_broken_symlink()
  File "/cluster/easybuild/broadwell/software/mflow/0.0-foss-2019b-Python-3.7.4/lib/python3.7/site-packages/snakemake-5.27.4-py3.7.egg/snakemake/io.py", line 563, in check_broken_symlink
    if not self.exists_local and os.lstat(self.file):
FileNotFoundError: [Errno 2] No such file or directory: '[...]/Cauliflower_Test/STAR/cauliflower/genome/genome.ok'
 

Ответ №1:

с помощью команды snakemake —debug-dag я обнаружил, что у меня возникла ошибка при вызове конфигурации в

 input: genome=lambda wildcards: config[wildcards.species]["genomefile"]
 

Правильное имя было «genome_file», которое нигде не упоминалось, но в debug-dag указано:

     candidate job STAR
    wildcards: species=cauliflower, rep=A
    file [...]/Cauliflower_Test/Alignmentscores/cauliflower_align_rate.txt:
    No producers found, but file is present on disk.
    Error:
      KeyError: 'genomefile'
    Wildcards:
      species=cauliflower
    Traceback:
      File "[...]/workflows/Trinity_GG.smk", line 9, in <lambda>
 

Надеюсь, это поможет кому-то еще, это стоило мне нескольких часов и много нервов…