Существуют ли какие-либо алгоритмы / методы RL, хорошо подходящие для настройки одного временного шага?

#reinforcement-learning

Вопрос:

Я работаю в условиях, когда агент принимает одно решение и только одно решение для каждого состояния в пакете состояний; другими словами, он представлен несколькими состояниями, и независимо от того, какое решение принято для каждого, следующее состояние всегда является конечным для каждого. После принятия решения агент не получает возможности узнать вознаграждение за свои действия в течение ~20-30 минут, что также замедляет процесс обучения. Пространство состояний счетно бесконечно (хотя существует 16 дискретных действий), поэтому я уже исключил табличные методы.

Вот несколько теоретических вопросов, с которыми я сталкиваюсь:

  • Поскольку никогда не существует нетерминального следующего состояния, это делает любой метод, основанный на TD (например, DQN), бесполезным, верно?
  • Правильно ли я классифицирую это как настройку на основе модели, где полная матрица перехода описывается всеми состояниями- > конечное состояние с вероятностью 1?
  • Существуют ли какие-либо алгоритмы, которые соответствуют однократному шагу, не табличному, автономному, основанному на модели параметру?

Комментарии:

1. Одноступенчатые MDP называются бандитами. Если вы загуглите его, то найдете множество алгоритмов 🙂

2. Спасибо! Я знал, что, вероятно, для них было какое-то неизвестное мне название, которое помешало мне найти лучшие алгоритмы.