Не удается выделить графический процессор в Slurm

#distributed-computing #hpc #slurm

#распределенные вычисления #hpc #slurm

Вопрос:

У меня проблема с выделением ресурсов графического процессора в кластере Slurm.

укажите 1 графический процессор и запустите, как показано ниже, в нем говорится, что ресурсы gres не могут быть выделены. Тот же результат, если их несколько.

 $ srun --gres=gpu:1 --pty bash
srun: error: Unable to create step for job 73: Invalid generic resource (gres) specification
 

информация gres вычислительного узла, похоже, отображается правильно, как показано ниже

 $ sinfo -o " N  c  m  %f  G "
NODELIST              CPUS        MEMORY      AVAIL_FEATURES             GRES       
gpu_svr[1-4  72          515484      (null)                     gpu:8   
 

Конфигурация узла в slurm.conf, как показано ниже

 /etc/slurm/slurm.conf

GresTypes=gpu
NodeName=gpu_svr1 NodeAddr=x.x.x.1 CPUs=72 RealMemory=515484 Sockets=2 CoresPerSocket=18 
ThreadsPerCore=2 Gres=gpu:8 State=UNKNOWN
NodeName=gpu_svr2 NodeAddr=x.x.x.2 CPUs=72 RealMemory=515484 Sockets=2 CoresPerSocket=18 
ThreadsPerCore=2 Gres=gpu:8 State=UNKNOWN
NodeName=gpu_svr3 NodeAddr=x.x.x.3 CPUs=72 RealMemory=515484 Sockets=2 CoresPerSocket=18 
ThreadsPerCore=2 Gres=gpu:8 State=UNKNOWN
NodeName=gpu_svr4 NodeAddr=x.x.x.4 CPUs=72 RealMemory=515484 Sockets=2 CoresPerSocket=18 
ThreadsPerCore=2 Gres=gpu:8 State=UNKNOWN
PartitionName=v100 Nodes=ALL Default=YES MaxTime=INFINITE State=UP
 

вот gres.conf для вычислительных узлов

 gres.conf 

NodeName=gpu_svr[1-4] Name=gpu File=/dev/nvidia[0-7]
 

Ответ №1:

Решено.

В slurm.conf должны быть указаны следующие параметры

 SelectType=select/cons_tres 
SelectTypeParameters=CR_Core 
JobAcctGatherType=jobacct_gather/cgroup
 

Комментарии:

1. Я думаю, вам нужно разрешение администратора, чтобы добавить эти разрешения в кластер HPC.