Условные действия TF-Агентов в Пользовательской среде

#python #artificial-intelligence #reinforcement-learning #tensorflow-agents

Вопрос:

Каков идиоматический способ кодирования действий, которые разрешены только в определенных состояниях?

Например, у вас есть четыре действия:

  1. Переверните карту
  2. Заканчивать
  3. Держите перевернутую карту
  4. Не храните перевернутую карту

Если вы представляете это как государственную машину, то каждое действие-это переход.

Когда игра начнется, вы сможете выполнить только действие 1 или 2.

Вы можете выполнить действие 3 или 4 только в том случае, если вы находитесь в состоянии, когда карта лежит лицевой стороной вверх (вы выполнили действие 2), которое возвращает вас в исходное состояние.

Я ожидал бы, что мне нужно будет закодировать это, используя то, что может наблюдать агент, но что мешает агенту попробовать действие 3/4 из начального состояния, просто плохая награда?

У кого-нибудь есть какие-либо намеки на то, как это делается, или примеры такого рода среды?