Как поведенческое выполнение «tf.GradientTape ()» работает для обучения агента PPO?
#python #tensorflow #reinforcement-learning Вопрос: Я внедряю агент PPO для непрерывной области и использую tensorflow 2.7. Когда мне нужно обучить моего актера и моего критика, а затем мои нейронные сети, обучение…