Обновление Актера DDPG ( Исус по реализации Pytorch )

#python #pytorch #reinforcement-learning #gradient-descent #policy-gradient-descent Вопрос: Это от https://github.com/MoritzTaylor/ddpg-pytorch/blob/master/ddpg.py реализация, и я предполагаю, что большая часть реализации ddpg написана таким образом. self.critic_optimizer.zero_grad() state_action_batch = self.critic(state_batch, action_batch) value_loss = F.mse_loss(state_action_batch, expected_values.detach())…

Продолжить чтениеОбновление Актера DDPG ( Исус по реализации Pytorch )