Задание Mpi зависает при отправке с PBS

#linux #mpi #pbs #mpich

Вопрос:

Я пытаюсь выполнить программу на удаленном сервере общей памяти с помощью PBS Pro. В настоящее время я пытаюсь выполнить при входе на сервер по ssh.
При регулярном выполнении программы она работает на сервере нормально, с некоторой задержкой в зависимости от количества ядер, которые я запрашиваю.
При попытке отправить на PBS с помощью qsub процесс зависает и не выдает никаких результатов. Состояние qstat-R.
При прерывании работы с qdel я получаю следующие выходные данные:

 Warning: no access to tty (Bad file descriptor).  Thus no job control in this shell.  Host key verification failed.  [mpiexec@server] HYDU_sock_write (utils/sock/sock.c:254): write error (Bad file descriptor)  [mpiexec@server] HYD_pmcd_pmiserv_send_signal (pm/pmiserv/pmiserv_cb.c:176): unable to write data to proxy [mpiexec@server] ui_cmd_cb (pm/pmiserv/pmiserv_pmci.c:42): unable to send signal downstream  [mpiexec@server] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76) callback returned error status [mpiexec@server] HYD_pmci_wait_for_completion (pm/pmiserv/pmiserv_pmci.c:160): error waiting for event  [mpiexec@server] main (ui/mpich/mpiexec.c:326): process manager error waiting for completion  Terminated   

Я пытаюсь выполнить с помощью этого сценария:

 #!/bin/bash #PBS -N test #PBS -j oe #PBS -l select=1:ncpus=64:mpiprocs=64 mpirun -n 64 SU2_CFD input.cfg gt; $PBS_O_WORKDIR/SU2_CFD.out  

У меня не было проблем с запуском сценария «hello world» с PBS таким образом.

Моя ОС-debian linux, а версия mpich-3.4.1. Кто-нибудь знает, в чем может быть проблема?

Комментарии:

1. в сообщении об ошибке указывается недопустимый SSH-ключ. Тем не менее, это довольно странно, так как вы действительно должны работать на одном и том же узле(!).