Почему алгоритм усиления сходится при инициализации с неравными вероятностями?

#machine-learning #state #reinforcement-learning #montecarlo

#машинное обучение #состояние #подкрепление-обучение #монтекарло

Вопрос:

Учитывая следующую среду, почему алгоритм усиления (или любой другой простой алгоритм градиента политики) сходится к оптимальному решению принятия действия b, даже если начальная вероятность принятия действия a намного выше ?

  1. Запуск в состоянии S0
  2. Примите меры —> награда 5

    Выполните действие b —> награда 10

  3. Эпизод заканчивается, начинается снова в состоянии s0

Ответ №1:

Он будет сходиться к оптимальному решению принятия действия b, потому что градиент действия с более высоким значением вознаграждения всегда будет делать большие шаги в долгосрочной перспективе.

Ключом к этому вопросу является то, что функция потерь:

log(вероятность (действие)) * вознаграждение

имеет градиент

(1 / вероятность) * вознаграждение

Итак, если модель имеет вероятность 90% (0,9) для действия a, градиент функции потерь равен 1/0,9 * вознаграждение = 1,111 * вознаграждение. Если модель выполняет действие b с вероятностью 10% (0,1), градиент равен 1/0.1 * вознаграждение = 10 * вознаграждение. Таким образом, градиент этого прогона будет в девять раз выше. Это уравновешивает тот факт, что веса действий с высокой вероятностью будут увеличиваться чаще, и уменьшает этот градиент до вознаграждения. Таким образом, результат модели будет сходиться только к выполнению действия с наибольшим вознаграждением.