#slurm
#slurm
Вопрос:
Я хочу увидеть память, имеющуюся у графических процессоров, прежде чем отправлять свои задания. Мне удается заставить slurm сообщить мне модель:
(automl-meta-learning) [miranda9@golubh3 ~]$ sinfo -o %G -p eng-research
GRES
gpu:P100:4
(null)
gpu:V100:2
(automl-meta-learning) [miranda9@golubh3 ~]$ sinfo -o %G -p secondary
GRES
(null)
gpu:V100:2
gpu:V100:1
gpu:K80:4
gpu:TeslaK40M:2
но я хочу увидеть объем памяти. Я знаю, что мог бы войти в очередь с srun
помощью и просмотреть ресурсы, используя nvidia-smi
, НО очередь настолько заполнена, что может потребоваться до 16 часов, чтобы предоставить мне ресурсы. Как мне просто попросить slurm сообщить мне, какая память GPU есть у этих графических процессоров очереди?
Ответ №1:
Если системные администраторы не закодировали память графического процессора как «функцию» узла, Slurm в настоящее время не знает о памяти графического процессора. Это может измениться в будущем в связи с работами по интеграции библиотеки управления NVIDIA (NVML) в Slurm, но до тех пор вы можете либо спросить системных администраторов, либо посмотреть в документации вашего кластера или в спецификациях карт: машины V100 имеют либо 16 ГБ, либо 32 ГБ памяти,У K80 24 ГБ, у K40M 12 ГБ.
Комментарии:
1. если бы они его закодировали, где бы это было? во имя графического процессора? или только вход в систему на узле, а затем выполнение nvidia-smi — единственный способ получить его?
2. как «особенность» узла, которую вы можете увидеть, например, с помощью
scontrol show node