#linux #mpi #pbs #mpich
Вопрос:
Я пытаюсь выполнить программу на удаленном сервере общей памяти с помощью PBS Pro. В настоящее время я пытаюсь выполнить при входе на сервер по ssh.
При регулярном выполнении программы она работает на сервере нормально, с некоторой задержкой в зависимости от количества ядер, которые я запрашиваю.
При попытке отправить на PBS с помощью qsub процесс зависает и не выдает никаких результатов. Состояние qstat-R.
При прерывании работы с qdel я получаю следующие выходные данные:
Warning: no access to tty (Bad file descriptor). Thus no job control in this shell. Host key verification failed. [mpiexec@server] HYDU_sock_write (utils/sock/sock.c:254): write error (Bad file descriptor) [mpiexec@server] HYD_pmcd_pmiserv_send_signal (pm/pmiserv/pmiserv_cb.c:176): unable to write data to proxy [mpiexec@server] ui_cmd_cb (pm/pmiserv/pmiserv_pmci.c:42): unable to send signal downstream [mpiexec@server] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76) callback returned error status [mpiexec@server] HYD_pmci_wait_for_completion (pm/pmiserv/pmiserv_pmci.c:160): error waiting for event [mpiexec@server] main (ui/mpich/mpiexec.c:326): process manager error waiting for completion Terminated
Я пытаюсь выполнить с помощью этого сценария:
#!/bin/bash #PBS -N test #PBS -j oe #PBS -l select=1:ncpus=64:mpiprocs=64 mpirun -n 64 SU2_CFD input.cfg gt; $PBS_O_WORKDIR/SU2_CFD.out
У меня не было проблем с запуском сценария «hello world» с PBS таким образом.
Моя ОС-debian linux, а версия mpich-3.4.1. Кто-нибудь знает, в чем может быть проблема?
Комментарии:
1. в сообщении об ошибке указывается недопустимый SSH-ключ. Тем не менее, это довольно странно, так как вы действительно должны работать на одном и том же узле(!).