Усиление Обучения Нейронных Сетей

#neural-network #reinforcement-learning

Вопрос:

Допустим, у меня есть обученная модель функции глубокого Q-обучения. Мои выходы — это мои действия. Сеть будет выглядеть следующим НН

Я хочу использовать эту модель. Могу ли я запустить это так: дайте сети состояние s1 в качестве входных данных(все остальные входы не используются) и посмотрите на мои выходы. Возьмите результат с наибольшим значением, и это мое действие, которое должен предпринять мой агент. Выполните действие и дайте ему s2 в качестве входных данных без s1 и сделайте то же самое

Комментарии:

1. Это звучит как правильный способ его использования… Если есть проблема, не могли бы вы поделиться более подробной информацией?

2. С этим нет никаких проблем. Я просто хочу знать, правильно ли использовать модель.

Ответ №1:

введите описание изображения здесь

Вот диаграмма, которая показывает процесс глубокого Q-обучения. Входы в нейронную сеть — это факторы, влияющие на «состояние». В зависимости от состояния NN выведет указанное количество узлов, которые являются парами фактических значений Q. Если агент решает, какое действие предпринять, он выберет узел с наибольшим значением Q, и в этом случае каждый узел представляет некоторое определенное действие. На основе выбранного действия среда создаст новое состояние, которое снова можно будет использовать в нейронной сети.

Изображение DQN

Комментарии:

1. Большое спасибо!

Ответ №2:

Обычно в q-обучении делается следующее:

  • Начните с состояния s_1
  • Передайте представление состояния в модель
  • Выводом является значение состояния-действия (значение выполнения действия «a» из состояния «s_1»), поэтому выберите значение с наибольшим значением (или случайным образом, если обучение).
  • Выбранное действие переводит вас в новое состояние s_2
  • Повторите процесс с s_2

Комментарии:

1. Большое спасибо!