#machine-learning #state #reinforcement-learning #montecarlo
#машинное обучение #состояние #подкрепление-обучение #монтекарло
Вопрос:
Учитывая следующую среду, почему алгоритм усиления (или любой другой простой алгоритм градиента политики) сходится к оптимальному решению принятия действия b, даже если начальная вероятность принятия действия a намного выше ?
- Запуск в состоянии S0
- Примите меры —> награда 5
Выполните действие b —> награда 10
- Эпизод заканчивается, начинается снова в состоянии s0
Ответ №1:
Он будет сходиться к оптимальному решению принятия действия b, потому что градиент действия с более высоким значением вознаграждения всегда будет делать большие шаги в долгосрочной перспективе.
Ключом к этому вопросу является то, что функция потерь:
log(вероятность (действие)) * вознаграждение
имеет градиент
(1 / вероятность) * вознаграждение
Итак, если модель имеет вероятность 90% (0,9) для действия a, градиент функции потерь равен 1/0,9 * вознаграждение = 1,111 * вознаграждение. Если модель выполняет действие b с вероятностью 10% (0,1), градиент равен 1/0.1 * вознаграждение = 10 * вознаграждение. Таким образом, градиент этого прогона будет в девять раз выше. Это уравновешивает тот факт, что веса действий с высокой вероятностью будут увеличиваться чаще, и уменьшает этот градиент до вознаграждения. Таким образом, результат модели будет сходиться только к выполнению действия с наибольшим вознаграждением.