Почему Gt 1 = v(St 1) в уравнении Беллмана для MRPS?

#reinforcement-learning #markov-chains #markov #подкрепление-обучение #марковские цепи #марков Вопрос: В lt;Лекции 2: Процессы принятия решений Марковаgt; Дэвида Сильвера на странице 19 приведена следующая производная формула: Я нашел, что равно, что означает…

Продолжить чтениеПочему Gt 1 = v(St 1) в уравнении Беллмана для MRPS?