Почему Gt 1 = v(St 1) в уравнении Беллмана для MRPS?

#reinforcement-learning #markov-chains #markov

#подкрепление-обучение #марковские цепи #марков

Вопрос:

В lt;Лекции 2: Процессы принятия решений Марковаgt; Дэвида Сильвера на странице 19 приведена следующая производная формула:

Я нашел, что равно, что означает Gt 1 = v(St 1), поэтому Gt = v(St).

В соответствии с Определением возврата:

и в соответствии с Gt = v(St):

v(St) = Gt =

Но определение Функции ценности-это

что означает v(s) = = что абсолютно неверно.

Мой вопрос таков

Почему Gt 1 = v(St 1)?
Где мои ошибки в выводе?

Ответ №1:

Первая большая ошибка E[a b] = E[a c] -это утверждение b=c , которое подразумевает, что ожидания работают не так. В частности E[a b] = E[a] E[b] , и E[a] = E[a] E[c] таким образом у нас E[b] = E[c] (и не b=c !) так G_{t 1} не равно v(S_{t 1}) , но E[G_{t 1}] = v(S_{t 1}) (что следует из определения).

В общем случае равенство значения функции не делает аргументы равными. Тот же способ f(x a) = f(x b) не подразумевает a=b , скажем f(x) = x^2 , что это также справедливо для x=0, a=-1, b=1.

Вопрос:

Ответ №1:

Вам также может понравиться

Как правильно заполнить параметр __m128i из базового типа (например, short) для использования с _mm256_broadcast_epi (например, _mm_broadcastw_epi16)

ошибка xunit assert.equal?

Параметр запроса доступа в узле с помощью express