airflow #etl #slack #airflow-scheduler
#воздушный поток #etl #slack #планировщик воздушного потока
Вопрос:
Я новичок в airflow, поэтому простите меня за любые глупые предположения, которые я делаю по этому поводу, у меня на работе настроен ETL, где я запускаю Airflow в кластере компании, и у меня есть dag с несколькими задачами. Возможен сценарий, при котором кластер, на котором выполняется airflow, выходит из строя, и в этом случае DAG не будет запущен.
Я хотел проверить, можем ли мы настроить уведомление о сбое планировщика воздушного потока, в моем онлайн-чтении появилось несколько полезных статей для мониторинга самого DAG, но если планировщик выходит из строя, эти уведомления о сбое не будут запущены (поправьте меня, если это не так, как это работает)
Откройте приведенную ниже ссылку в режиме инкогнито, если вы столкнулись с брандмауэром и у вас нет подписки
https://medium.com/datareply/integrating-slack-alerts-in-airflow-c9dcd155105
Комментарии:
1. Вы пробовали использовать webhooks, как написано в статье ?
2. Я уже отправил запрос своим администраторам slack для создания приложений, мой вопрос заключается в том, что если планировщик выйдет из строя, будет ли эта веб-ссылка перехватывать это?
3. Это зависит от модуля обработки сбоев воздушного потока. Что касается slack webhooks, все, что там размещено правильно, попадет в настроенный канал.
Ответ №1:
Для этого необходимо использовать внешнее программное обеспечение, например Datadog.
Здесь вы можете найти дополнительную информацию: https://docs.datadoghq.com/integrations/airflow/?tab=host
По сути, вам нужно подключить внешний Datadog к Airflow через statsD.
В моем случае у меня есть Airflow, развернутый через docker-compose, а Datadog — это другой контейнер (из официального образа Docker Datadog), связанный с контейнерами планировщика и веб-сервера.
Вы также можете использовать Grafana и Prometeus (также через statsD), что является способом с открытым исходным кодом https://databand.ai/blog/everyday-data-engineering-monitoring-airflow-with-prometheus-statsd-and-grafana/
Комментарии:
1. Эй, Хавьер, позволит ли это мне отслеживать сбои планировщика воздушного потока, или сбой планировщика и сбой dag одинаковы?
2. Это позволяет отслеживать сбои планировщика. У нас есть сигнал тревоги именно для этого случая. Он отправляет нам сообщение Slack / email, когда планировщик не работает более 15 минут
3. Эй, я только что проверил, и приложение Datadog также присутствует в приложениях slack, хотя оно упоминается как устаревшее, есть ли более новая версия, которую вы используете?
4. Я обновил ответ для добавления информации о mor