Повторение параметров в файле csv и запуск конвейера с каждым параметром

#azure #apache-spark-sql #databricks

#лазурь #apache-spark-sql #базы данных

Вопрос:

Привет, у меня есть сценарий, в котором у меня есть csv-файл в хранилище azure datalake. при запуске конвейера azure параметры из excel должны быть выбраны один за другим итеративным способом. На основе каждого параметра следует запускать записную книжку databricks.

Есть ли какое — либо решение для этого-как перебирать значения в csv-файле?

Ответ №1:

Если вы работаете в Azure, вам следует рассмотреть фабрику данных Azure (ADF) или Azure Synapse Analytics, в которой есть конвейеры. Оба они хороши для перемещения данных с места на место и организации данных. Например, у вас может быть конвейер ADF с действием поиска, которое считывает ваш файл .csv, а затем вызывает a Для каждого действия с параметризованной записной книжкой Databricks внутри:

Шаблон ADF

Интересно, что для каждого действия выполняется параллельно, поэтому может работать сразу с несколькими строками, в зависимости от размера кластера ваших баз данных и т. Д.

Вы могли бы попробовать сделать все это в одном блокноте Databricks, что, я уверен, возможно, но я бы сказал, что это более сложный подход к коду, и у вас все еще есть вопросы по планированию, параллельному выполнению задач, оркестровке и т. Д