#python #tensorflow #tensorflow2.0 #reinforcement-learning #tensorflow-agents
#python #tensorflow #tensorflow2.0 #подкрепление-обучение #tensorflow-агенты
Вопрос:
Согласно Википедии об обучении с подкреплением
Два элемента делают обучение с подкреплением мощным: использование выборок для оптимизации производительности и использование аппроксимации функций для работы с большими средами. Благодаря этим двум ключевым компонентам, обучение с подкреплением может использоваться в больших средах в следующих ситуациях:
- Модель среды известна, но аналитическое решение недоступно.
- Приведена только имитационная модель среды (предмет оптимизации на основе моделирования).
- Единственный способ собрать информацию о среде — это взаимодействовать с ней.
В моем случае среда относится к третьему варианту, единственный способ — взаимодействовать с ней, чтобы получить опыт. для этого у меня есть API-интерфейс flask restful, среда вызывает точки API, которые соответствуют основным функциям RL framework Reset и Step.
Поскольку это не класс python, который должен быть передан оболочке среды TF, какие другие способы использования агентов TF с моим решением. может быть, класс среды, который будет взаимодействовать с шиной обмена сообщениями, чтобы узнать, был ли поврежден API?
Для дальнейшего объяснения, если бы я создал класс python в соответствии с документацией по среде TF с внутренней реализацией для шага и сброса, которая проверяет, был ли поврежден API, было бы это разумным решением?
ОБНОВЛЕНИЕ 1: я все еще не могу разобраться во всем этом, поскольку у него есть сложности, особенно для сброса среды из внешней среды, но в настоящее время я работаю над классом брокера как простой метод обмена сообщениями между классом python и API flask