Как планирование и разделение работают в потоке воздуха?

#python #sql #airflow #directed-acyclic-graphs

Вопрос:

Я пытаюсь понять концепцию планирования и разделения в потоке воздуха.

Планирование

Если дата начала нашей dag в прошлом, а текущая дата составляет более одного запланированного интервала, поток воздуха заполнит прогоны dag. Во время этой обратной засыпки будет ли воздушный поток учитывать только данные, доступные в окне расписания, если да, то как? если нет, то в чем смысл заполнения данных, если весь набор данных используется для выполнения dag несколько раз?

Например: У меня есть набор данных с данными с начала 2021 года (с 1 января 2021 года по 1 октября 2021 года). Теперь я хочу выполнить некоторую обработку и преобразование этого набора данных, и я решаю создать DAG с необходимыми задачами, и я включаю его. Дата начала dag-1 января 2021 года с запланированным окном в 1 месяц, поэтому к 1 октября 2021 года будет выполнено 10 запусков dag, теперь в каждом запуске DAG он прошел весь набор данных, а не данные, доступные во время выполнения dag в этом конкретном месяце. Таким образом, возникает вопрос, почему Airflow необходимо заполнять прогоны dag, когда он использует весь набор данных в каждом прогоне dag? Или есть способ, с помощью которого мы можем убедиться, что при каждом запуске dag считывается один конкретный раздел данных? если да, то как данные разделения воздушного потока и как мы можем убедиться, что используем такое разделение в наших DAG?

Спасибо за ваши ответы.

Твое здоровье, Маниканта