#azure #apache-spark-sql #databricks
#лазурь #apache-spark-sql #базы данных
Вопрос:
Привет, у меня есть сценарий, в котором у меня есть csv-файл в хранилище azure datalake. при запуске конвейера azure параметры из excel должны быть выбраны один за другим итеративным способом. На основе каждого параметра следует запускать записную книжку databricks.
Есть ли какое — либо решение для этого-как перебирать значения в csv-файле?
Ответ №1:
Если вы работаете в Azure, вам следует рассмотреть фабрику данных Azure (ADF) или Azure Synapse Analytics, в которой есть конвейеры. Оба они хороши для перемещения данных с места на место и организации данных. Например, у вас может быть конвейер ADF с действием поиска, которое считывает ваш файл .csv, а затем вызывает a Для каждого действия с параметризованной записной книжкой Databricks внутри:
Интересно, что для каждого действия выполняется параллельно, поэтому может работать сразу с несколькими строками, в зависимости от размера кластера ваших баз данных и т. Д.
Вы могли бы попробовать сделать все это в одном блокноте Databricks, что, я уверен, возможно, но я бы сказал, что это более сложный подход к коду, и у вас все еще есть вопросы по планированию, параллельному выполнению задач, оркестровке и т. Д