#reinforcement-learning
Вопрос:
Я работаю в условиях, когда агент принимает одно решение и только одно решение для каждого состояния в пакете состояний; другими словами, он представлен несколькими состояниями, и независимо от того, какое решение принято для каждого, следующее состояние всегда является конечным для каждого. После принятия решения агент не получает возможности узнать вознаграждение за свои действия в течение ~20-30 минут, что также замедляет процесс обучения. Пространство состояний счетно бесконечно (хотя существует 16 дискретных действий), поэтому я уже исключил табличные методы.
Вот несколько теоретических вопросов, с которыми я сталкиваюсь:
- Поскольку никогда не существует нетерминального следующего состояния, это делает любой метод, основанный на TD (например, DQN), бесполезным, верно?
- Правильно ли я классифицирую это как настройку на основе модели, где полная матрица перехода описывается всеми состояниями- > конечное состояние с вероятностью 1?
- Существуют ли какие-либо алгоритмы, которые соответствуют однократному шагу, не табличному, автономному, основанному на модели параметру?
Комментарии:
1. Одноступенчатые MDP называются бандитами. Если вы загуглите его, то найдете множество алгоритмов 🙂
2. Спасибо! Я знал, что, вероятно, для них было какое-то неизвестное мне название, которое помешало мне найти лучшие алгоритмы.