#python #artificial-intelligence #reinforcement-learning #tensorflow-agents
Вопрос:
Каков идиоматический способ кодирования действий, которые разрешены только в определенных состояниях?
Например, у вас есть четыре действия:
- Переверните карту
- Заканчивать
- Держите перевернутую карту
- Не храните перевернутую карту
Если вы представляете это как государственную машину, то каждое действие-это переход.
Когда игра начнется, вы сможете выполнить только действие 1 или 2.
Вы можете выполнить действие 3 или 4 только в том случае, если вы находитесь в состоянии, когда карта лежит лицевой стороной вверх (вы выполнили действие 2), которое возвращает вас в исходное состояние.
Я ожидал бы, что мне нужно будет закодировать это, используя то, что может наблюдать агент, но что мешает агенту попробовать действие 3/4 из начального состояния, просто плохая награда?
У кого-нибудь есть какие-либо намеки на то, как это делается, или примеры такого рода среды?