Потоки данных сопоставления ADF — Повторное использование одного запущенного кластера spark для параллельного выполнения потоков данных сопоставления

#azure #apache-spark #azure-data-factory

#azure #apache-spark #azure-data-factory

Вопрос:

У нас есть сложный ETL в ADF, в котором запущено несколько конвейеров с действиями потока данных для загрузки нескольких таблиц в хранилище данных на основе зависимостей таблиц.

В результате запуска нескольких конвейеров с взаимозависимостями несколько потоков данных выполняются как сочетание некоторых последовательно, а некоторые параллельно. Похоже, что каждый поток данных, выполняемый параллельно, запускает новый кластер spark, из-за чего наши ежедневные затраты на запуск ETL резко возрастают!

В идеале мы хотели бы, чтобы кластер spark использовался повторно для всего параллельного выполнения потоков данных, если это возможно. Есть ли способ указать верхний предел для количества кластеров spark, которые должны быть созданы для параллельного выполнения потока данных?

У нас уже включен TTL на 10 минут.

Ответ №1:

Если у вас включен TTL, убедитесь, что потоки данных выполняются последовательно с использованием этого Azure IR, чтобы не запускать несколько пулов кластеров.

Для параллельного выполнения используйте Azure IR без TTL.

Мы работаем над функцией «максимальный параллелизм», о которой вы упоминали выше, надеемся, что она скоро появится.

Комментарии:

1. Спасибо за информацию о функции «максимальный параллелизм». Существует ли временная шкала, когда мы можем ожидать этого? (Я отложу полный рефакторинг нашего ETL, если это выйдет в ближайшие несколько месяцев)