Azure — запускает блокнот Databricks для каждого нового большого двоичного объекта в контейнере хранения

#azure #azure-blob-storage #azure-databricks #azure-eventgrid #azure-data-factory-pipeline

#лазурный #azure-blob-хранилище #azure-databricks #azure-eventgrid #azure-data-factory-конвейер

Вопрос:

Я внедряю одно решение для тестирования как:

Я создал записную книжку Azure databricks на Python. Этот ноутбук выполняет следующие задачи (для тестирования)-

  1. Считывает файл большого двоичного объекта из учетной записи хранилища в фрейме данных Pyspark.
  2. Выполняем некоторые преобразования и анализ.
  3. Создание CSV с преобразованными данными и хранение в другом контейнере.
  4. Переместите исходный прочитанный CSV-файл в другой архивный контейнер (чтобы он не был обнаружен при следующем выполнении).

* Описанные выше шаги также можно выполнить в разных ноутбуках.

Теперь мне нужно, чтобы этот Блокнот запускался для каждого нового большого двоичного объекта в контейнере. Я буду реализовывать следующую оркестровку-

Новый большой двоичный объект в контейнере -> событие в раздел EventGrid-> запустить конвейер Datafactory -> выполнить блокнот Databricks.

Мы можем передать filename в качестве параметра из конвейера ADF в блокнот Databricks.

Ищу какие-то другие способы выполнения процесса оркестровки. Если вышесказанное кажется правильным и более подходящим, пожалуйста, отметьте как ответ.

Комментарии:

1. Это обычный шаблон для этого, у вас все должно быть в порядке.

Ответ №1:

Новый большой двоичный объект в контейнере -> событие в раздел EventGrid-> запустить конвейер Datafactory -> выполнить блокнот Databricks.

Мы можем передать filename в качестве параметра из конвейера ADF в блокнот Databricks.

Ищу какие-то другие способы выполнения процесса оркестровки. Если вышесказанное кажется правильным и более подходящим, пожалуйста, отметьте как ответ.

Вы можете использовать этот метод. Конечно, вы также можете следовать этому пути:

New blob in Container -> Use built-in event trigger to trigger Datafactory pipeline -> execute Databricks Notebook .

Я не думаю, что вам нужно вводить сетку событий, потому что фабрика данных поставляется с триггерами для создания событий на основе больших двоичных объектов.

Комментарии:

1. спасибо за ответ. Я использую встроенный триггер событий только для ADF. (Я упомянул eventgrid , потому что этот триггер ADF также создаст системный раздел EventGrid в серверной части).

2. @Gopesh Ваш текущий метод подходит. Может быть, мы сможем покончить с этой проблемой прямо сейчас?

3. Я получил 2 комментария в поддержку того, за чем я слежу. Так что, да, это может быть конец.

4. @Gopesh Вы можете отметить ответ, чтобы закончить этот вопрос.:)

Ответ №2:

Я получил 2 комментария поддержки за то, что я слежу за оркестровкой. // Новый большой двоичный объект в контейнере -> событие в раздел EventGrid-> запуск конвейера Datafactory -> выполнение блокнота Databricks. //