#amazon-web-services #amazon-ec2 #xgboost #h2o #h2o.ai
Вопрос:
Я пытаюсь запустить H2O xgboost на r4.8x больших. Но это занимает слишком много времени (15 часов в отличие от 4 часов для GBM с тем же размером сетки гиперпараметров).
Зная, что XGBoost использует оптимизацию кэша, существует ли какой-либо конкретный тип экземпляра, который лучше всего подходит для реализации XGBoost в H2O?
Мои обучающие данные содержат 28 тысяч строк со 150 двоичными столбцами. И я запускаю поиск по сетке.
Комментарии:
1. Возможно, вопрос следует перефразировать примерно так: какие параметры в виртуальной машине я должен оптимизировать, чтобы получить максимальную производительность от алгоритма xgboost? (Я думаю, что слово «рекомендуется» может вызвать близкие голоса; но на этот вопрос, похоже, можно ответить фактами.)
2. Спасибо за предложение, Даррен. Я внес правку
Ответ №1:
Изменение вашего экземпляра EC2 не обязательно ускорит его. Вам нужно понять, где находится узкое место. Просмотрите журналы и посмотрите, что занимает время на GBM против XGBoost. Создает ли XGBoost более глубокие деревья или больше деревьев? Возможно, ваши настройки отличаются между двумя алгоритмами. Убедитесь, что все гиперпараметры одинаковы (как можно ближе).
Кроме того, XGBoost использует память, внешнюю по отношению к JVM H2O. Как упоминалось в часто задаваемых вопросах документов XGBoost H2O, попробуйте добавить -extramempercent 120
и уменьшить объем памяти H2O.