Можно ли планировать задания Spark с помощью Airflow

#pyspark #airflow-scheduler

#pyspark #airflow-планировщик

Вопрос:

Я новичок в spark, и мне нужно прояснить некоторые сомнения, которые у меня есть.

  1. Могу ли я планировать задания Spark с помощью Airflow
  2. Мои задания Airflow (Spark) обрабатывают необработанные csv-файлы, присутствующие в корзине S3, а затем преобразуются в формат parquet, сохраняют его в корзине S3, а затем, наконец, сохраняют его в Presto Hive после полной обработки. Конечный пользователь подключается к Presto и запрашивает данные для создания визуализации.

Могут ли эти обработанные данные храниться только в Hive или только в Presto, чтобы пользователь мог подключиться к Presto или Hive и, соответственно, выполнить запрос к базе данных.

Ответ №1:

Ну, вы всегда можете spark_submit_operator для планирования и отправки ваших заданий spark, или вы можете использовать bash operator, где вы можете использовать команду spark-submit bash для планирования и отправки заданий spark.

на ваш второй вопрос: после того, как spark создал файлы parquet, вы можете использовать spark (тот же экземпляр spark) для записи его в hive или presto.