СИГКИЛЛ появляется при каждом запуске dag. DAG воздушного потока, похоже, не хватает ресурсов для запуска

#python #airflow #pipeline #directed-acyclic-graphs #sigkill

Вопрос:

Поэтому я создал конвейер, который извлекает данные с ftp и отправляет их в GCS (облачное хранилище Google). Я использую оператор python для всего подъема и перемещения, в основном используя PYSFTP и API google storage.

Когда я выполняю код локально, это может занять некоторое время. Обычно около 3/4 минут на файл. Хотя раньше это никогда не было проблемой (поскольку файлы, которые я обычно переношу, намного меньше), воздушный поток просто убьет выполняемую задачу, казалось бы, без всякой причины. Файлы, которые я перемещаю, составляют около 150 МБ каждый и в паркете. опять же, работает локально, никаких проблем.

Я попытался обновить экземпляр airflow, чтобы использовать более мощную виртуальную машину, но это не помогло.

Я не думаю, что это код, стоящий за этим, терпит неудачу (возможно, загрузка и чтение паркета требует больших вычислительных затрат), но я повторяю свои действия и пытаюсь убедиться, что каждый файл обрабатывается отдельно, но я предполагаю, что я сталкиваюсь с какой-то ошибкой памяти, которую я не знаю, как преодолеть.

Я слышал, что я мог бы, возможно, подключить/ использовать оператор модуля Kubernetes, который мог бы помочь моим ресурсам, но я не знал бы, с чего начать. Любая помощь будет признательна.

У кого-нибудь есть идеи, как я могу еще больше обновить свой экземпляр