Почему алгоритм усиления сходится при инициализации с неравными вероятностями?

#machine-learning #state #reinforcement-learning #montecarlo

#машинное обучение #состояние #подкрепление-обучение #монтекарло

Вопрос:

Учитывая следующую среду, почему алгоритм усиления (или любой другой простой алгоритм градиента политики) сходится к оптимальному решению принятия действия b, даже если начальная вероятность принятия действия a намного выше ?

Запуск в состоянии S0
Примите меры —> награда 5
Выполните действие b —> награда 10
Эпизод заканчивается, начинается снова в состоянии s0

Ответ №1:

Он будет сходиться к оптимальному решению принятия действия b, потому что градиент действия с более высоким значением вознаграждения всегда будет делать большие шаги в долгосрочной перспективе.

Ключом к этому вопросу является то, что функция потерь:

log(вероятность (действие)) * вознаграждение

имеет градиент

(1 / вероятность) * вознаграждение

Итак, если модель имеет вероятность 90% (0,9) для действия a, градиент функции потерь равен 1/0,9 * вознаграждение = 1,111 * вознаграждение. Если модель выполняет действие b с вероятностью 10% (0,1), градиент равен 1/0.1 * вознаграждение = 10 * вознаграждение. Таким образом, градиент этого прогона будет в девять раз выше. Это уравновешивает тот факт, что веса действий с высокой вероятностью будут увеличиваться чаще, и уменьшает этот градиент до вознаграждения. Таким образом, результат модели будет сходиться только к выполнению действия с наибольшим вознаграждением.

Вопрос:

Ответ №1:

Вам также может понравиться

После создания сеанса (passport, node js, express-session) как получить доступ к переменным сеанса из другого файла внутри того же проекта

VB.NEt не удается передать/загрузить zip-файл на клиент

База данных Android Firebase постоянно обновляет значение