Существуют ли какие-либо алгоритмы / методы RL, хорошо подходящие для настройки одного временного шага?

#reinforcement-learning Вопрос: Я работаю в условиях, когда агент принимает одно решение и только одно решение для каждого состояния в пакете состояний; другими словами, он представлен несколькими состояниями, и независимо от…

Продолжить чтениеСуществуют ли какие-либо алгоритмы / методы RL, хорошо подходящие для настройки одного временного шага?