Ошибка: Некоторые операции NCCL завершились неудачно или истекло время ожидания
#pytorch #gpu #distributed #nvidia-docker Вопрос: Во время выполнения распределенного обучения на 4 графических процессорах A6000 я получаю следующую ошибку: [E ProcessGroupNCCL.cpp:630] [Rank 3] Watchdog caught collective operation timeout: WorkNCCL(OpType=BROADCAST, Timeout(ms)=1800000)…