#neural-network #reinforcement-learning
Вопрос:
Допустим, у меня есть обученная модель функции глубокого Q-обучения. Мои выходы — это мои действия. Сеть будет выглядеть следующим НН
Я хочу использовать эту модель. Могу ли я запустить это так: дайте сети состояние s1 в качестве входных данных(все остальные входы не используются) и посмотрите на мои выходы. Возьмите результат с наибольшим значением, и это мое действие, которое должен предпринять мой агент. Выполните действие и дайте ему s2 в качестве входных данных без s1 и сделайте то же самое
Комментарии:
1. Это звучит как правильный способ его использования… Если есть проблема, не могли бы вы поделиться более подробной информацией?
2. С этим нет никаких проблем. Я просто хочу знать, правильно ли использовать модель.
Ответ №1:
Вот диаграмма, которая показывает процесс глубокого Q-обучения. Входы в нейронную сеть — это факторы, влияющие на «состояние». В зависимости от состояния NN выведет указанное количество узлов, которые являются парами фактических значений Q. Если агент решает, какое действие предпринять, он выберет узел с наибольшим значением Q, и в этом случае каждый узел представляет некоторое определенное действие. На основе выбранного действия среда создаст новое состояние, которое снова можно будет использовать в нейронной сети.
Комментарии:
1. Большое спасибо!
Ответ №2:
Обычно в q-обучении делается следующее:
- Начните с состояния s_1
- Передайте представление состояния в модель
- Выводом является значение состояния-действия (значение выполнения действия «a» из состояния «s_1»), поэтому выберите значение с наибольшим значением (или случайным образом, если обучение).
- Выбранное действие переводит вас в новое состояние s_2
- Повторите процесс с s_2
Комментарии:
1. Большое спасибо!