Исключение ChildProcessCrashException в многопроцессорном выполнении Dagster при развертывании докеров с несколькими контейнерами

#python #dagster

Вопрос:

У меня есть работа в Дагстере, которая обучает CNN (используя Keras). Операция, которая выполняется fit() , вызывает следующую ошибку:

 Multiprocess executor: child process for step train unexpectedly exited with code -9 dagster.core.executor.child_process_executor.ChildProcessCrashException  Stack Trace:  File "/usr/local/lib/python3.7/site-packages/dagster/core/executor/multiprocess.py", line 163, in execute  event_or_none = next(step_iter) , File "/usr/local/lib/python3.7/site-packages/dagster/core/executor/multiprocess.py", line 268, in execute_step_out_of_process  for ret in execute_child_process_command(command): , File "/usr/local/lib/python3.7/site-packages/dagster/core/executor/child_process_executor.py", line 157, in execute_child_process_command  raise ChildProcessCrashException(exit_code=process.exitcode)  

Никаких дополнительных выходных данных не дается. Я использую локальное развертывание докера с несколькими контейнерами.

Вещи пытались:

  • Я запускаю код локально (без докера) с помощью execute_in_process() , и это работает без ошибок.
  • Из-за упоминания исполнителя и мультипроцесса в трассировке стека я попытался установить значение execution to in_process , но это просто зависает.

Любой совет был бы очень признателен.

Комментарии:

1. Вызвано проблемами с памятью и устранено путем увеличения настроек памяти в Docker.

2. Какую память вы увеличили? Оперативная память, Виртуальная память, ОБМЕН? Прошу тех из нас, кто не запускает dagster в контейнерах docker — (виртуальные машины и т. Д.) И испытывает эту проблему.

3. В настройках Докера есть параметр «память», который я увеличил до 16 ГБ. Я не уверен, к чему это относится под капотом, но это отдельно от настройки памяти подкачки.