Ошибка Azure Auto ML JobConfigurationMaxSizeExceeded при использовании кластера

#azure-machine-learning-studio #azure-machine-learning-service #azureml

#azure-машинное обучение-студия #azure-служба машинного обучения #азуремл

Вопрос:

Я сталкиваюсь со следующей ошибкой, когда пытаюсь запустить автоматизированный ML через студию в вычислительном кластере GPU:

Сообщение об ошибке Azure ML

«Ошибка: не удалось выполнить задание AzureMLCompute. JobConfigurationMaxSizeExceeded: Указанная конфигурация задания превышает максимально допустимый размер 32768 символов. Пожалуйста, уменьшите размер аргументов командной строки задания и параметров среды»

Попытка запуска выполняется в зарегистрированном табличном наборе данных в хранилище файлов и представляет собой простой случай регрессии. Как ни странно, это прекрасно работает с вычислительным экземпляром процессора, который я использую для других своих конвейеров. Я смог запустить его несколько раз, используя это, и хотел перейти в кластер только для того, чтобы попасть в эту ошибку. Я обнаружил в Интернете, что это может быть случай со следующей настройкой: AZUREML_COMPUTE_USE_COMMON_RUNTIME:false; но я не уверен, куда это поместить, когда просто запускаете из веб-студии.

Спасибо вам за вашу помощь!

Ответ №1:

Это известная ошибка. Я слежу за группой продуктов, чтобы узнать, есть ли какие-либо обновления для этой ошибки. Для обходного пути, о котором вы упомянули, вам нужно перейти к узлу, на котором произошел сбой с исключением JobConfigurationMaxSizeExceeded, и вручную установить AZUREML_COMPUTE_USE_COMMON_RUNTIME:false в поле JSON их среды.

Узел выглядит так, как показано на скриншоте ниже.введите описание изображения здесь

Комментарии:

1. как указано в вопросе, они используют Azure Automated ML. Автоматизированный ML не позволяет вам устанавливать какие-либо параметры среды (по крайней мере, в любом месте, которое я вижу), и, безусловно, в нем нет узлов для редактирования. Это полностью автоматизированное решение….

Ответ №2:

Похоже, ошибка была исправлена. Я просто запустил его в кластере, не изменив ни одного из параметров. Спасибо вам, Ютонг, за помощь!