#azure-machine-learning-studio #azure-machine-learning-service #azureml
#azure-машинное обучение-студия #azure-служба машинного обучения #азуремл
Вопрос:
Я сталкиваюсь со следующей ошибкой, когда пытаюсь запустить автоматизированный ML через студию в вычислительном кластере GPU:
«Ошибка: не удалось выполнить задание AzureMLCompute. JobConfigurationMaxSizeExceeded: Указанная конфигурация задания превышает максимально допустимый размер 32768 символов. Пожалуйста, уменьшите размер аргументов командной строки задания и параметров среды»
Попытка запуска выполняется в зарегистрированном табличном наборе данных в хранилище файлов и представляет собой простой случай регрессии. Как ни странно, это прекрасно работает с вычислительным экземпляром процессора, который я использую для других своих конвейеров. Я смог запустить его несколько раз, используя это, и хотел перейти в кластер только для того, чтобы попасть в эту ошибку. Я обнаружил в Интернете, что это может быть случай со следующей настройкой: AZUREML_COMPUTE_USE_COMMON_RUNTIME:false; но я не уверен, куда это поместить, когда просто запускаете из веб-студии.
Спасибо вам за вашу помощь!
Ответ №1:
Это известная ошибка. Я слежу за группой продуктов, чтобы узнать, есть ли какие-либо обновления для этой ошибки. Для обходного пути, о котором вы упомянули, вам нужно перейти к узлу, на котором произошел сбой с исключением JobConfigurationMaxSizeExceeded, и вручную установить AZUREML_COMPUTE_USE_COMMON_RUNTIME:false в поле JSON их среды.
Комментарии:
1. как указано в вопросе, они используют Azure Automated ML. Автоматизированный ML не позволяет вам устанавливать какие-либо параметры среды (по крайней мере, в любом месте, которое я вижу), и, безусловно, в нем нет узлов для редактирования. Это полностью автоматизированное решение….
Ответ №2:
Похоже, ошибка была исправлена. Я просто запустил его в кластере, не изменив ни одного из параметров. Спасибо вам, Ютонг, за помощь!