Уведомление о сбое планировщика воздушного потока через slack

airflow #etl #slack #airflow-scheduler

#воздушный поток #etl #slack #планировщик воздушного потока

Вопрос:

Я новичок в airflow, поэтому простите меня за любые глупые предположения, которые я делаю по этому поводу, у меня на работе настроен ETL, где я запускаю Airflow в кластере компании, и у меня есть dag с несколькими задачами. Возможен сценарий, при котором кластер, на котором выполняется airflow, выходит из строя, и в этом случае DAG не будет запущен.

Я хотел проверить, можем ли мы настроить уведомление о сбое планировщика воздушного потока, в моем онлайн-чтении появилось несколько полезных статей для мониторинга самого DAG, но если планировщик выходит из строя, эти уведомления о сбое не будут запущены (поправьте меня, если это не так, как это работает)

Откройте приведенную ниже ссылку в режиме инкогнито, если вы столкнулись с брандмауэром и у вас нет подписки

https://medium.com/datareply/integrating-slack-alerts-in-airflow-c9dcd155105

Комментарии:

1. Вы пробовали использовать webhooks, как написано в статье ?

2. Я уже отправил запрос своим администраторам slack для создания приложений, мой вопрос заключается в том, что если планировщик выйдет из строя, будет ли эта веб-ссылка перехватывать это?

3. Это зависит от модуля обработки сбоев воздушного потока. Что касается slack webhooks, все, что там размещено правильно, попадет в настроенный канал.

Ответ №1:

Для этого необходимо использовать внешнее программное обеспечение, например Datadog.

Здесь вы можете найти дополнительную информацию: https://docs.datadoghq.com/integrations/airflow/?tab=host

По сути, вам нужно подключить внешний Datadog к Airflow через statsD.

В моем случае у меня есть Airflow, развернутый через docker-compose, а Datadog — это другой контейнер (из официального образа Docker Datadog), связанный с контейнерами планировщика и веб-сервера.

Вы также можете использовать Grafana и Prometeus (также через statsD), что является способом с открытым исходным кодом https://databand.ai/blog/everyday-data-engineering-monitoring-airflow-with-prometheus-statsd-and-grafana/

Комментарии:

1. Эй, Хавьер, позволит ли это мне отслеживать сбои планировщика воздушного потока, или сбой планировщика и сбой dag одинаковы?

2. Это позволяет отслеживать сбои планировщика. У нас есть сигнал тревоги именно для этого случая. Он отправляет нам сообщение Slack / email, когда планировщик не работает более 15 минут

3. Эй, я только что проверил, и приложение Datadog также присутствует в приложениях slack, хотя оно упоминается как устаревшее, есть ли более новая версия, которую вы используете?

4. Я обновил ответ для добавления информации о mor