Активность потока данных Azure со статусом в очереди в течение нескольких часов

#azure #azure-data-factory-2 #azure-data-flow

Вопрос:

У меня настроена активность потока данных Azure.

он быстро извлекает строки из источника, но затем, когда дело доходит до обработки строк кластером spark, для небольшой выборки, такой как 10 тысяч строк, требуется целая вечность. этот набор данных содержит около 40 столбцов.

Я не могу понять причину, по которой это занимает так много времени. Процесс остается заблокированным в этом состоянии очереди, и я понятия не имею, что происходит.

Активность использует оптимизированную память и 8 ядер в настройках, и я использую ИК по умолчанию, которая, как ни странно, имеет общее назначение, а 4 ядра выделены серым цветом.

введите описание изображения здесь

Комментарии:

1. Я видел это раньше — я бы попробовал сначала использовать 8 ядер общего назначения. Если это не поможет, вам нужно будет подать заявку в службу поддержки.

2. @JoelCochran Я смог заставить это работать. Я создал новую среду выполнения интеграции с оптимизированной памятью и 8 ядрами и прекращаю использовать среду выполнения интеграции по умолчанию для потока данных. в итоге это сработало 😀 Теперь у меня есть узкое место в базе данных по некоторым случаям :))

Ответ №1:

Создайте новую среду выполнения интеграции Azure, Используя оптимизированный для памяти 8-ядерный тип вычислений.

Проверьте, как создать и настроить среду выполнения интеграции Azure.

На шаге 5 заполните необходимые сведения о типе вычислений, как показано ниже, и нажмите «Создать». Используйте эту ИК-панель для запуска вашего конвейера.

введите описание изображения здесь