#memory #mpi #hardware #distributed-computing #ram
#память #mpi #аппаратное обеспечение #распределенные вычисления #ОЗУ
Вопрос:
Я запустил в контексте астрофизики большое моделирование (код enzo) с выполнением MPI на 128 ядрах, например :
mpirun -np 128 ./enzo.exe amr_cosmology.enzo
и во время выполнения я получаю следующие ошибки: он помечен как a Hardware Error
, поэтому я делаю вывод, что флешка с общим объемом оперативной памяти (1 ГБ) — это плохо. Как вы можете видеть, код не останавливается, но эти сообщения об ошибках часто возникают во время всего общего выполнения кода :
TopGrid dt = 3.705042e-02 time = 1.2350099725762 cycle = 14 z = 834.55610989934
TopGrid dt = 3.816191e-02 time = 1.272060395839 cycle = 15 z = 818.25224654732
TopGrid dt = 3.930675e-02 time = 1.3102223091899 cycle = 16 z = 802.26651295398
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711318] [Hardware Error]: Corrected error, no action required.
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711377] [Hardware Error]: CPU:2 (17:31:0) MC17_STATUS[-|CE|MiscV|-|AddrV|-|-|SyndV|-|CECC]: 0x9c2041000000011b
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711387] [Hardware Error]: Error Addr: 0x0000001c9f3d4ac0
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711388] [Hardware Error]: IPID: 0x0000009600450f00, Syndrome: 0x0f5940000a801001
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711399] [Hardware Error]: Unified Memory Controller Extended Error Code: 0
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711407] [Hardware Error]: Unified Memory Controller Error: DRAM ECC error.
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711422] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711474] [Hardware Error]: Corrected error, no action required.
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711479] [Hardware Error]: CPU:2 (17:31:0) MC18_STATUS[Over|CE|MiscV|-|AddrV|-|-|SyndV|-|CECC]: 0xdc2041000000011b
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711483] [Hardware Error]: Error Addr: 0x0000001ee2f9b140
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711484] [Hardware Error]: IPID: 0x0000009600550f00, Syndrome: 0xda9020000a800d01
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711489] [Hardware Error]: Unified Memory Controller Extended Error Code: 0
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711492] [Hardware Error]: Unified Memory Controller Error: DRAM ECC error.
Message from syslogd@pablo at Sep 24 20:52:00 ...
kernel:[2415943.711497] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
TopGrid dt = 4.048593e-02 time = 1.3495290567141 cycle = 17 z = 786.59270291163
TopGrid dt = 4.170048e-02 time = 1.3900149827028 cycle = 18 z = 771.22472945212
TopGrid dt = 4.295147e-02 time = 1.4317154617942 cycle = 19 z = 756.15662471201
Что это за ошибка: она исправляется автоматически или это действительно аппаратный сбой? В любом случае, что-то не так.
Ответ №1:
Это связано с неисправной оперативной памятью. Частое исправление ошибок ECC, например, в вашем случае, определяет неисправное оборудование. Исправление заключается в том, чтобы найти память, которая вызывает эту проблему, и заменить ее. Если это не критическая система, возможно, вам не нужно ее немедленно исправлять.
В некоторых случаях ОЗУ, которая не работает на ожидаемой частоте, также может вызвать эту проблему.
Смотрите Ссылки для получения дополнительной информации. Ссылка 1, Ссылка 2, Ссылка 3