Как поведенческое выполнение «tf.GradientTape ()» работает для обучения агента PPO?

Post author:admin
Запись опубликована:4 января, 2022
Post category:Вопросы по программированию

#python #tensorflow #reinforcement-learning Вопрос: Я внедряю агент PPO для непрерывной области и использую tensorflow 2.7. Когда мне нужно обучить моего актера и моего критика, а затем мои нейронные сети, обучение…

Продолжить чтение