#python #airflow #pipeline #directed-acyclic-graphs #sigkill
Вопрос:
Поэтому я создал конвейер, который извлекает данные с ftp и отправляет их в GCS (облачное хранилище Google). Я использую оператор python для всего подъема и перемещения, в основном используя PYSFTP и API google storage.
Когда я выполняю код локально, это может занять некоторое время. Обычно около 3/4 минут на файл. Хотя раньше это никогда не было проблемой (поскольку файлы, которые я обычно переношу, намного меньше), воздушный поток просто убьет выполняемую задачу, казалось бы, без всякой причины. Файлы, которые я перемещаю, составляют около 150 МБ каждый и в паркете. опять же, работает локально, никаких проблем.
Я попытался обновить экземпляр airflow, чтобы использовать более мощную виртуальную машину, но это не помогло.
Я не думаю, что это код, стоящий за этим, терпит неудачу (возможно, загрузка и чтение паркета требует больших вычислительных затрат), но я повторяю свои действия и пытаюсь убедиться, что каждый файл обрабатывается отдельно, но я предполагаю, что я сталкиваюсь с какой-то ошибкой памяти, которую я не знаю, как преодолеть.
Я слышал, что я мог бы, возможно, подключить/ использовать оператор модуля Kubernetes, который мог бы помочь моим ресурсам, но я не знал бы, с чего начать. Любая помощь будет признательна.
У кого-нибудь есть идеи, как я могу еще больше обновить свой экземпляр