#azure #azure-blob-storage #azure-databricks #azure-eventgrid #azure-data-factory-pipeline
#лазурный #azure-blob-хранилище #azure-databricks #azure-eventgrid #azure-data-factory-конвейер
Вопрос:
Я внедряю одно решение для тестирования как:
Я создал записную книжку Azure databricks на Python. Этот ноутбук выполняет следующие задачи (для тестирования)-
- Считывает файл большого двоичного объекта из учетной записи хранилища в фрейме данных Pyspark.
- Выполняем некоторые преобразования и анализ.
- Создание CSV с преобразованными данными и хранение в другом контейнере.
- Переместите исходный прочитанный CSV-файл в другой архивный контейнер (чтобы он не был обнаружен при следующем выполнении).
* Описанные выше шаги также можно выполнить в разных ноутбуках.
Теперь мне нужно, чтобы этот Блокнот запускался для каждого нового большого двоичного объекта в контейнере. Я буду реализовывать следующую оркестровку-
Новый большой двоичный объект в контейнере -> событие в раздел EventGrid-> запустить конвейер Datafactory -> выполнить блокнот Databricks.
Мы можем передать filename в качестве параметра из конвейера ADF в блокнот Databricks.
Ищу какие-то другие способы выполнения процесса оркестровки. Если вышесказанное кажется правильным и более подходящим, пожалуйста, отметьте как ответ.
Комментарии:
1. Это обычный шаблон для этого, у вас все должно быть в порядке.
Ответ №1:
Новый большой двоичный объект в контейнере -> событие в раздел EventGrid-> запустить конвейер Datafactory -> выполнить блокнот Databricks.
Мы можем передать filename в качестве параметра из конвейера ADF в блокнот Databricks.
Ищу какие-то другие способы выполнения процесса оркестровки. Если вышесказанное кажется правильным и более подходящим, пожалуйста, отметьте как ответ.
Вы можете использовать этот метод. Конечно, вы также можете следовать этому пути:
New blob in Container
-> Use built-in event trigger to trigger Datafactory pipeline
-> execute Databricks Notebook
.
Я не думаю, что вам нужно вводить сетку событий, потому что фабрика данных поставляется с триггерами для создания событий на основе больших двоичных объектов.
Комментарии:
1. спасибо за ответ. Я использую встроенный триггер событий только для ADF. (Я упомянул eventgrid , потому что этот триггер ADF также создаст системный раздел EventGrid в серверной части).
2. @Gopesh Ваш текущий метод подходит. Может быть, мы сможем покончить с этой проблемой прямо сейчас?
3. Я получил 2 комментария в поддержку того, за чем я слежу. Так что, да, это может быть конец.
4. @Gopesh Вы можете отметить ответ, чтобы закончить этот вопрос.:)
Ответ №2:
Я получил 2 комментария поддержки за то, что я слежу за оркестровкой. // Новый большой двоичный объект в контейнере -> событие в раздел EventGrid-> запуск конвейера Datafactory -> выполнение блокнота Databricks. //