#azure #azure-data-factory #azure-data-factory-2 #azure-batch
Вопрос:
Я хочу создать пакетное действие Azure в своем канале Фабрики данных, я настроил триггер, который проверяет наличие новых «последних измененных» больших двоичных объектов за последние 24 часа.
Поскольку я имею дело с большими файлами, я хочу использовать возможности пакетной и многопроцессорной обработки 2 больших двоичных объектов одновременно на одной машине.
Это труба, которую я делал до сих пор:
Второе действие управляет выводом предыдущего, создавая переменную списка {имя контейнера}/{большой двоичный объект}.
Как я могу разделить адреса больших двоичных объектов на небольшие пакеты, чтобы я мог передать их для следующего пакетного действия?
Спасибо
Ответ №1:
Действие «ForEach» по умолчанию выполняется параллельно, поэтому по умолчанию оно будет включать не менее 20 потоков и до 50 в зависимости от вашего процесса ввода. Убедитесь, что флажок «Последовательный» на вашем каждом из них снят:
Если вам нужно сгруппироваться в более крупные группы, например, по 3 на партию, по 5 на партию, тогда это может быть немного сложнее, и я буду искать, например, сохраненную активность процесса, записную книжку Databricks или записную книжку Synapse, чтобы выполнить эту немного более сложную работу для меня.
Комментарии:
1. Хорошо, значит, записная книжка БД позволяет обрабатывать переменные в области фабрики данных Az? Я новичок в Azure и пытаюсь осознать это.
2. Да, вы можете передавать параметры в записные книжки Databricks через фабрику данных Azure.
3. Я думаю, что буду делать все в функции AZ. Вопрос: Как создать тело JSON, включающее переменную?
4. Это отдельный вопрос. Я предлагаю вам следовать нескольким учебным пособиям по функциям Azure с фабрикой данных, а затем опубликовать отдельный вопрос, основанный на том, что вы пробовали, какие ошибки вы получаете и т. Д. Я думаю, что этот вопрос завершен, и вы должны отметить один из ответов как полезный, если он был полезен для вас.