#python #pytorch #reinforcement-learning #policy-gradient-descent
#python #pytorch #обучение с подкреплением #политика-градиентный спуск
Вопрос:
Я внедряю обучение подкреплению PPO2 в своих самостоятельных задачах и всегда сталкиваюсь с такими ситуациями, когда агент, кажется, почти созрел, а затем внезапно катастрофически теряет производительность и не может поддерживать стабильную производительность. Я не знаю, какое правильное слово для этого.
Мне просто интересно, что может быть причиной такого катастрофического снижения производительности? Какие-либо подсказки или подсказки?
Большое спасибо
Ответ №1:
Я бы предположил, что ваша функция вознаграждения не ограничена и может привести к чрезвычайно высоким отрицательным вознаграждениям в некоторых крайних случаях.
Две вещи, чтобы предотвратить это:
- Ограничьте значения из вашей функции вознаграждения
- Убедитесь, что вы можете справиться с ситуациями, когда ваша среда обучения нестабильна, например, процесс разбился, завис, произошла ошибка. Например, если вы даете своему агенту отрицательную награду, когда он падает (робот пытается ходить), а окружающая среда не обнаруживает падение из-за какой-то редкой ошибки, то ваша функция вознаграждения продолжает выдавать отрицательные награды, пока эпизод не прекратится.
В большинстве случаев это не так уж и важно, но если вам не повезло, ваша среда может даже выдавать значения NaN, и это приведет к повреждению вашей сети