Гарантия сходимости градиента политики с аппроксимацией функции

#reinforcement-learning #function-approximation #policy-gradient-descent

#обучение с подкреплением #функция-аппроксимация #политика-градиентный спуск

Вопрос:

Существует ли какое-либо доказательство сходимости алгоритма градиента политики с «общим» значением / приближением функции Q? Основополагающие статьи (Sutton1999 amp; Tsitsiklis1999) доказывают теорему, используя предположение о совместимости (т. Е. приближение Q-функции линейно по отношению к функциям политики). Также более поздние улучшения, такие как DPG (Silver14), также имеют аналогичные предположения.

Тем не менее, на практике это предположение о совместимости не выполняется, сеть политик и сеть Q-функций имеют свой собственный, независимый набор параметров.

Поэтому мне интересно, в какой степени эти методы поддерживаются теоретическими гарантиями.

Спасибо,

(Sutton1999): Методы градиента политики для обучения с подкреплением с аппроксимацией функции, Саттон и др., 1999 (Silver2014): Детерминированные алгоритмы градиента политики, Silver и др., 2014 (Tsitsiklis1999) : Алгоритмы актера-критика, Tsitsiklis и др., 1999