Какие параметры виртуальной машины EC2 следует использовать для оптимизации производительности XGBoost H2O?

#amazon-web-services #amazon-ec2 #xgboost #h2o #h2o.ai

Вопрос:

Я пытаюсь запустить H2O xgboost на r4.8x больших. Но это занимает слишком много времени (15 часов в отличие от 4 часов для GBM с тем же размером сетки гиперпараметров).

Зная, что XGBoost использует оптимизацию кэша, существует ли какой-либо конкретный тип экземпляра, который лучше всего подходит для реализации XGBoost в H2O?

Мои обучающие данные содержат 28 тысяч строк со 150 двоичными столбцами. И я запускаю поиск по сетке.

1. Возможно, вопрос следует перефразировать примерно так: какие параметры в виртуальной машине я должен оптимизировать, чтобы получить максимальную производительность от алгоритма xgboost? (Я думаю, что слово «рекомендуется» может вызвать близкие голоса; но на этот вопрос, похоже, можно ответить фактами.)

2. Спасибо за предложение, Даррен. Я внес правку

Ответ №1:

Изменение вашего экземпляра EC2 не обязательно ускорит его. Вам нужно понять, где находится узкое место. Просмотрите журналы и посмотрите, что занимает время на GBM против XGBoost. Создает ли XGBoost более глубокие деревья или больше деревьев? Возможно, ваши настройки отличаются между двумя алгоритмами. Убедитесь, что все гиперпараметры одинаковы (как можно ближе).

Кроме того, XGBoost использует память, внешнюю по отношению к JVM H2O. Как упоминалось в часто задаваемых вопросах документов XGBoost H2O, попробуйте добавить -extramempercent 120 и уменьшить объем памяти H2O.

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

Функция обратного вызова jsonpCallback не работает

объединить 2 проекта с использованием maven и eclipse с OSGi

Как правильно импортировать соседний пакет в текущий пакет в python?