#bash #mpi #slurm #hpc #comsol
Вопрос:
Я пытаюсь загрузить эту работу с помощью скрипта .sh в кластер с SLURM, используя программное обеспечение COMSOL:
#!/bin/bash
#SBATCH --job-name=my_work
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=20
#SBATCH --mem=20G
#SBATCH --partition=my_partition
#SBATCH --time=4-0
#SBATCH --no-requeue
#SBATCH --exclusive
#SBATCH -D $HOME
#SBATCH --output=Lecho1_%j.out
#SBATCH --error=Lecho1_%j.err
cd /home/myuser/myfile/
module load intel/2019b
module load OpenMPI/4.1.1
module load COMSOL/5.5.0
comsol batch -mpibootstrap slurm -nn 20 -nnhost 20 -inputfile myfile.mph -outputfile
myfile.outout.mph -study std1 -batchlog myfile.mph.log
и при этом я получаю следующее сообщение об ошибке:
Fatal error in PMPI_Init_thread: Other MPI error, error stack:
MPIR_Init_thread(805): fail failed
MPID_Init(1743)......: channel initialization failed
MPID_Init(2137)......: PMI_Init returned -1
Может ли кто-нибудь сказать мне, что это значит и как это полностью исправить?
Комментарии:
1. Я не совсем уверен в том, что COMSOL делает под капотом, но, судя по сценарию и журналу, вы используете
OpenMPI
модуль, но в сообщении об ошибке (от COMSOL) используется MPICH (или его производная). Проверьте документацию COMSOL, чтобы выяснить, какую библиотеку MPI использовать (это может быть Intel MPI, производная MPICH).