обработчики ошибок в MPICH и OpenMPI

#mpi #openmpi #mpich

#mpi #openmpi #mpich

Вопрос:

существуют ли какие-либо обработчики ошибок, реализованные в OpenMPI и MPICH, кроме MPI_ERROR_RETURN и MPI_ERRORS_ARE_FATAL? какая реализация лучше справляется с ошибками? пожалуйста, предложите ссылку для получения дополнительной информации об этом..

Ответ №1:

Нет, это единственные два обработчика ошибок, определенные стандартом в настоящее время.

Форум MPI в настоящее время работает над тем, что станет MPI-3, и обработка ошибок и отказоустойчивость будут важным компонентом нового стандарта (существует рабочая группа, посвященная этой теме). Однако, пока эта работа не завершена, единственный способ повысить отказоустойчивость MPI — это использовать более ранние, нестандартные расширения. FT-MPI был проектом, который разработал очень надежный MPI, но, к сожалению, он основан на MPI1.2; очень ранней версии стандарта. Есть MPICH-V, основанный на MPI2, но он больше основан на перезапуске контрольных точек.

Наряду с перезапуском контрольных точек, как в OpenMPI, так и в MPICH2 поддерживается BLCR, прозрачная форма отказоустойчивости при перезапуске контрольных точек, которая позволяет легко выполнить откат к последней контрольной точке в случае аппаратного или сетевого сбоя.