#pyspark #airflow-scheduler
#pyspark #airflow-планировщик
Вопрос:
Я новичок в spark, и мне нужно прояснить некоторые сомнения, которые у меня есть.
- Могу ли я планировать задания Spark с помощью Airflow
- Мои задания Airflow (Spark) обрабатывают необработанные csv-файлы, присутствующие в корзине S3, а затем преобразуются в формат parquet, сохраняют его в корзине S3, а затем, наконец, сохраняют его в Presto Hive после полной обработки. Конечный пользователь подключается к Presto и запрашивает данные для создания визуализации.
Могут ли эти обработанные данные храниться только в Hive или только в Presto, чтобы пользователь мог подключиться к Presto или Hive и, соответственно, выполнить запрос к базе данных.
Ответ №1:
Ну, вы всегда можете spark_submit_operator для планирования и отправки ваших заданий spark, или вы можете использовать bash operator, где вы можете использовать команду spark-submit bash для планирования и отправки заданий spark.
на ваш второй вопрос: после того, как spark создал файлы parquet, вы можете использовать spark (тот же экземпляр spark) для записи его в hive или presto.