Условные действия TF-Агентов в Пользовательской среде

#python #artificial-intelligence #reinforcement-learning #tensorflow-agents

Вопрос:

Каков идиоматический способ кодирования действий, которые разрешены только в определенных состояниях?

Например, у вас есть четыре действия:

Переверните карту
Заканчивать
Держите перевернутую карту
Не храните перевернутую карту

Если вы представляете это как государственную машину, то каждое действие-это переход.

Когда игра начнется, вы сможете выполнить только действие 1 или 2.

Вы можете выполнить действие 3 или 4 только в том случае, если вы находитесь в состоянии, когда карта лежит лицевой стороной вверх (вы выполнили действие 2), которое возвращает вас в исходное состояние.

Я ожидал бы, что мне нужно будет закодировать это, используя то, что может наблюдать агент, но что мешает агенту попробовать действие 3/4 из начального состояния, просто плохая награда?

У кого-нибудь есть какие-либо намеки на то, как это делается, или примеры такого рода среды?

Вопрос:

Вам также может понравиться

Проблема с настройкой цвета на панели инструментов (android-kotlin)

NSMutableURLRequest: не удается получить тело для добавления с помощью запроса PUT

JSXGraph в формулах Moodle с двумя досками: привязка к полям ввода не работает