Агенты Tensorflow с фактической средой вместо среды класса python

#python #tensorflow #tensorflow2.0 #reinforcement-learning #tensorflow-agents

#python #tensorflow #tensorflow2.0 #подкрепление-обучение #tensorflow-агенты

Вопрос:

Согласно Википедии об обучении с подкреплением

Два элемента делают обучение с подкреплением мощным: использование выборок для оптимизации производительности и использование аппроксимации функций для работы с большими средами. Благодаря этим двум ключевым компонентам, обучение с подкреплением может использоваться в больших средах в следующих ситуациях:

  • Модель среды известна, но аналитическое решение недоступно.
  • Приведена только имитационная модель среды (предмет оптимизации на основе моделирования).
  • Единственный способ собрать информацию о среде — это взаимодействовать с ней.

В моем случае среда относится к третьему варианту, единственный способ — взаимодействовать с ней, чтобы получить опыт. для этого у меня есть API-интерфейс flask restful, среда вызывает точки API, которые соответствуют основным функциям RL framework Reset и Step.

Поскольку это не класс python, который должен быть передан оболочке среды TF, какие другие способы использования агентов TF с моим решением. может быть, класс среды, который будет взаимодействовать с шиной обмена сообщениями, чтобы узнать, был ли поврежден API?

Для дальнейшего объяснения, если бы я создал класс python в соответствии с документацией по среде TF с внутренней реализацией для шага и сброса, которая проверяет, был ли поврежден API, было бы это разумным решением?

ОБНОВЛЕНИЕ 1: я все еще не могу разобраться во всем этом, поскольку у него есть сложности, особенно для сброса среды из внешней среды, но в настоящее время я работаю над классом брокера как простой метод обмена сообщениями между классом python и API flask