Как помочь condor найти файл, который он должен выполнить в задании?

#condor

#condor

Вопрос:

Я пытаюсь запустить задание, но condor, похоже, не может найти мой файл.

Я убедился, что:

  1. файл находится там, выполняя ls и cat по его абсолютному пути
  2. запустите его из интерактивного сеанса condor
  3. дайте ему правильные разрешения, чтобы он его запускал.

Я сделал это, но я получаю эту ошибку:

 (automl-meta-learning) miranda9~/automl-meta-learning/automl-proj/experiments/meta_learning $ cat condor_job_log_69.out 
000 (069.000.000) 10/21 11:06:06 Job submitted from host: <130.126.112.32:9618?addrs=130.126.112.32-9618 [--1]-9618amp;noUDPamp;sock=3715279_f2e6_4>
...
001 (069.000.000) 10/21 11:06:07 Job executing on host: <172.22.224.111:9618?addrs=172.22.224.111-9618 [--1]-9618amp;noUDPamp;sock=807_1d04_3>
...
007 (069.000.000) 10/21 11:06:07 Shadow exception!
        Error from slot1_3@vision-01.cs.illinois.edu: Failed to execute '/home/miranda9/automl-meta-learning/automl-proj/experiments/meta_learning/meta_learning_experiments_submission.py': (errno=2: 'No such file or directory')
        0  -  Run Bytes Sent By Job
        0  -  Run Bytes Received By Job
...
012 (069.000.000) 10/21 11:06:07 Job was held.
        Error from slot1_3@vision-01.cs.illinois.edu: Failed to execute '/home/miranda9/automl-meta-learning/automl-proj/experiments/meta_learning/meta_learning_experiments_submission.py': (errno=2: 'No such file or directory')
        Code 6 Subcode 2
...
(automl)
  

но файл явно там:

 (automl-meta-learning) miranda9~/automl-meta-learning/automl-proj/experiments/meta_learning $ ls -lah /home/miranda9/automl-meta-learning/automl-proj/experiments/meta_learning/meta_learning_experiments_submission.py
-rwxrwxr-x. 1 miranda9 miranda9 22K Oct 20 14:54 /home/miranda9/automl-meta-learning/automl-proj/experiments/meta_learning/meta_learning_experiments_submission.py
  

Я не понимаю, почему condor не может его найти. Есть идеи? Я не системный администратор, поэтому я даже не знаю, как начать отладку этого.

кстати, мой сценарий отправки:

 ####################
#
# Experiments script
# Simple HTCondor submit description file
#
# reference: https://gitlab.engr.illinois.edu/Vision/vision-gpu-servers/-/wikis/HTCondor-user-guide#submit-jobs
#
# chmod a x test_condor.py
# chmod a x experiments_meta_model_optimization.py
# chmod a x meta_learning_experiments_submission.py
# chmod a x download_miniImagenet.py
#
# condor_submit -i
# condor_submit job.sub
#
####################

# Executable   = meta_learning_experiments_submission.py
# Executable = automl-proj/experiments/meta_learning/meta_learning_experiments_submission.py
# Executable = ~/automl-meta-learning/automl-proj/experiments/meta_learning/meta_learning_experiments_submission.py
Executable = /home/miranda9/automl-meta-learning/automl-proj/experiments/meta_learning/meta_learning_experiments_submission.py

## Output Files
Log          = condor_job.$(CLUSTER).log.out
Output       = condor_job.$(CLUSTER).stdout.out
Error        = condor_job.$(CLUSTER).err.out

# Use this to make sure 1 gpu is available. The key words are case insensitive.
REquest_gpus = 1
# requirements = ((CUDADeviceName = "Tesla K40m")) amp;amp; (TARGET.Arch == "X86_64") amp;amp; (TARGET.OpSys == "LINUX") amp;amp; (TARGET.Disk >= RequestDisk) amp;amp; (TARGET.Memory >= RequestMemory) amp;amp; (TARGET.Cpus >= RequestCpus) amp;amp; (TARGET.gpus >= Requestgpus) amp;amp; ((TARGET.FileSystemDomain == MY.FileSystemDomain) || (TARGET.HasFileTransfer))
# requirements = (CUDADeviceName == "Tesla K40m")
# requirements = (CUDADeviceName == "Quadro RTX 6000")
requirements = (CUDADeviceName != "Tesla K40m")

# Note: to use multiple CPUs instead of the default (one CPU), use request_cpus as well
Request_cpus = 8

# E-mail option
Notify_user = me@gmail.com
Notification = always

Environment = MY_CONDOR_JOB_ID= $(CLUSTER)

# "Queue" means add the setup until this line to the queue (needs to be at the end of script).
Queue
  

Ответ №1:

Похоже, что ваш исполняемый файл представляет собой скрипт python. Linux сообщит «нет такого файла или каталога», когда сам скрипт существует, но интерпретатор, указанный в «#!», не существует в системе. Может ли это быть тем, что здесь происходит? Как выглядит первая строка этого скрипта?

Комментарии:

1. да, это была проблема, с которой у меня были аргументы к какому-то другому менеджеру HPC вверху с неправильным файлом для python. Теперь у меня есть это, и это работает: #!/home/miranda9/.conda/bin/python3.7

Ответ №2:

Проблема заключалась в том, что в верхней части моего скрипта отправки python у меня были аргументы для других кластеров, не связанных с condor, поэтому там был указан неправильный путь к исполняемому файлу python. Я исправил это, удалив это и добавив эту строку в свой скрипт отправки python:

 #!/home/miranda9/miniconda3/envs/automl-meta-learning/bin/python
  

на самом деле, чтобы найти путь python для вашего текущего env, выполните:

 which python