Почему Gt 1 = v(St 1) в уравнении Беллмана для MRPS?

#reinforcement-learning #markov-chains #markov

#подкрепление-обучение #марковские цепи #марков

Вопрос:

В lt;Лекции 2: Процессы принятия решений Марковаgt; Дэвида Сильвера на странице 19 приведена следующая производная формула: уравнение v(s)

Я нашелвведите описание изображения здесь, что равновведите описание изображения здесь, что означает Gt 1 = v(St 1), поэтому Gt = v(St).

В соответствии с Определением возврата:

введите описание изображения здесь

и в соответствии с Gt = v(St):

v(St) = Gt = введите описание изображения здесь

Но определение Функции ценности-это

введите описание изображения здесь

что означает v(s) = введите описание изображения здесь= введите описание изображения здесьчто абсолютно неверно.

Мой вопрос таков

  1. Почему Gt 1 = v(St 1)?
  2. Где мои ошибки в выводе?

Ответ №1:

Первая большая ошибка E[a b] = E[a c] -это утверждение b=c , которое подразумевает, что ожидания работают не так. В частности E[a b] = E[a] E[b] , и E[a] = E[a] E[c] таким образом у нас E[b] = E[c] (и не b=c !) так G_{t 1} не равно v(S_{t 1}) , но E[G_{t 1}] = v(S_{t 1}) (что следует из определения).

В общем случае равенство значения функции не делает аргументы равными. Тот же способ f(x a) = f(x b) не подразумевает a=b , скажем f(x) = x^2 , что это также справедливо для x=0, a=-1, b=1.