#reinforcement-learning #markov-chains #markov
#подкрепление-обучение #марковские цепи #марков
Вопрос:
В lt;Лекции 2: Процессы принятия решений Марковаgt; Дэвида Сильвера на странице 19 приведена следующая производная формула:
Я нашел, что равно
, что означает Gt 1 = v(St 1), поэтому Gt = v(St).
В соответствии с Определением возврата:
и в соответствии с Gt = v(St):
Но определение Функции ценности-это
что означает v(s) = =
что абсолютно неверно.
Мой вопрос таков
- Почему Gt 1 = v(St 1)?
- Где мои ошибки в выводе?
Ответ №1:
Первая большая ошибка E[a b] = E[a c]
-это утверждение b=c
, которое подразумевает, что ожидания работают не так. В частности E[a b] = E[a] E[b]
, и E[a] = E[a] E[c]
таким образом у нас E[b] = E[c]
(и не b=c
!) так G_{t 1}
не равно v(S_{t 1})
, но E[G_{t 1}] = v(S_{t 1})
(что следует из определения).
В общем случае равенство значения функции не делает аргументы равными. Тот же способ f(x a) = f(x b)
не подразумевает a=b
, скажем f(x) = x^2
, что это также справедливо для x=0, a=-1, b=1.