Обучение с подкреплением PPO2 "катастрофическое забывание"?

#python #pytorch #reinforcement-learning #policy-gradient-descent

#python #pytorch #обучение с подкреплением #политика-градиентный спуск

Вопрос:

Я внедряю обучение подкреплению PPO2 в своих самостоятельных задачах и всегда сталкиваюсь с такими ситуациями, когда агент, кажется, почти созрел, а затем внезапно катастрофически теряет производительность и не может поддерживать стабильную производительность. Я не знаю, какое правильное слово для этого.

Мне просто интересно, что может быть причиной такого катастрофического снижения производительности? Какие-либо подсказки или подсказки?

Большое спасибо

процесс обучения1 learningprocess2

Ответ №1:

Я бы предположил, что ваша функция вознаграждения не ограничена и может привести к чрезвычайно высоким отрицательным вознаграждениям в некоторых крайних случаях.

Две вещи, чтобы предотвратить это:

Ограничьте значения из вашей функции вознаграждения
Убедитесь, что вы можете справиться с ситуациями, когда ваша среда обучения нестабильна, например, процесс разбился, завис, произошла ошибка. Например, если вы даете своему агенту отрицательную награду, когда он падает (робот пытается ходить), а окружающая среда не обнаруживает падение из-за какой-то редкой ошибки, то ваша функция вознаграждения продолжает выдавать отрицательные награды, пока эпизод не прекратится.

В большинстве случаев это не так уж и важно, но если вам не повезло, ваша среда может даже выдавать значения NaN, и это приведет к повреждению вашей сети

Вопрос:

Ответ №1:

Вам также может понравиться

разбить один файл на несколько файлов по имени ключа

Отсутствие схемы во всех слоях

Как я могу точно определить чье-то живое местоположение на карте