#reinforcement-learning #unsupervised-learning
Вопрос:
Большинство материалов (например, онлайн-курс Дэвида Сильвера) Я могу найти много дискуссий о взаимосвязи между обучением под наблюдением и обучением с подкреплением. Однако на самом деле это сравнение между обучением под наблюдением и онлайн-обучением с подкреплением, когда агент работает в среде (или имитирует взаимодействия), чтобы получить обратную связь, учитывая ограниченные знания об основной динамике.
Меня больше интересует автономное (пакетное) обучение с подкреплением, где набор данных (собранный опыт обучения) задается априори. В чем же тогда различия по сравнению с обучением под наблюдением? и какие у них могут быть общие черты?
Ответ №1:
Мне более интересно узнать о настройке автономного (пакетного) обучения для подкрепления, где набор данных (накопленный опыт обучения) задается априори. В чем же тогда различия по сравнению с обучением под наблюдением ? и в чем они могут быть похожи ?
В онлайн-среде фундаментальное различие между обучением под наблюдением и обучением с подкреплением заключается в необходимости разведки и компромисса между разведкой/эксплуатацией в RL. Однако и в автономном режиме есть несколько различий, которые делают RL более сложной/сложной проблемой, чем обучение под наблюдением. Несколько отличий, о которых я могу думать на макушке головы:
- При обучении с подкреплением агент получает так называемую «оценочную обратную связь» в терминах скалярного вознаграждения, которое дает агенту некоторую обратную связь о качестве выполненного действия, но не сообщает агенту, является ли это действие оптимальным или нет. Сравните это с обучением под наблюдением, когда агент получает так называемую «поучительную обратную связь»: для каждого прогноза, который делает учащийся, он получает обратную связь (метку), в которой говорится, каким было оптимальное действие/прогноз. Различия между поучительной и оценочной обратной связью подробно описаны в книге Рича Саттона в первых главах. По сути, обучение с подкреплением-это оптимизация с редкими ярлыками, для некоторых действий вы можете вообще не получить никакой обратной связи, а в других случаях обратная связь может быть отложена, что создает проблему с присвоением кредитов.
- В обучении с подкреплением у вас есть временной аспект, где цель состоит в том, чтобы найти оптимальную политику, которая сопоставляет состояния с действиями на некотором горизонте (количество временных шагов). Если горизонт T=1, то это всего лишь разовая задача прогнозирования, как в обучении под наблюдением, но если T>1, то это задача последовательной оптимизации, в которой вам нужно найти оптимальное действие не только в одном состоянии, но и в нескольких состояниях, и это еще более усложняется тем фактом, что действия, предпринятые в одном состоянии, могут влиять на то, какие действия следует предпринять в будущих состояниях (т. Е. Это динамично).
- В контролируемом обучении существует фиксированное распределение i.i.d, из которого извлекаются точки данных (по крайней мере, это распространенное предположение). В RL нет фиксированного распределения, скорее это распределение зависит от проводимой политики, и часто это распределение не является i.i.d, а скорее коррелировано.
Следовательно, RL-гораздо более сложная проблема, чем контролируемое обучение. Фактически, любую контролируемую учебную задачу можно преобразовать в задачу обучения с подкреплением: функция потерь контролируемой задачи может использоваться для определения функции вознаграждения, при этом меньшие потери сопоставляются с большими вознаграждениями. Хотя неясно, зачем это нужно, потому что это превращает контролируемую проблему в более сложную проблему обучения с подкреплением. Обучение с подкреплением предполагает меньше предположений, чем обучение под наблюдением, и поэтому в целом является более сложной проблемой для решения, чем обучение под наблюдением. Однако обратное невозможно, как правило, невозможно преобразовать проблему обучения с подкреплением в проблему контролируемого обучения.