невозможно изменить learning_rate в оптимизаторе тензорного потока во время обучения

#tensorflow #tensorflow2.0

#tensorflow #tensorflow2.0

Вопрос:

может кто-нибудь объяснить мне, почему я не могу изменить learningrate во время обучения, в старом оптимизаторе я мог бы изменить его, self.updates.append(K.update(self.learning_rate, new_learning_rate)) но больше не могу этого делать, и self._set_hyper("learning_rate", new_learning_rate) это не работает, это говорит мне, что: TypeError:__array__() takes 1 positional argument but 2 were given

 class SGD(keras.optimizers.Optimizer):
    def __init__(self, learning_rate=0.01, name="SGD", **kwargs):
        """Call super().__init__() and use _set_hyper() to store hyperparameters"""
        super().__init__(name, **kwargs)
        self._set_hyper("learning_rate", kwargs.get("lr", learning_rate)) # handle lr=learning_rate
        
    @tf.function
    def _resource_apply_dense(self, grad, var):
        learning_rate = self._get_hyper("learning_rate")
        new_learning_rate = learning_rate * 0.001
        new_var_m = var - grad * new_learning_rate
        self._set_hyper("learning_rate", new_learning_rate) #dont work
        var.assign(new_var)

    def _resource_apply_sparse(self, grad, var):
        raise NotImplementedError

    def get_config(self):
        base_config = super().get_config()
        return {
            **base_config,
            "learning_rate": self._serialize_hyperparameter("learning_rate"),
        }
 

Ответ №1:

В качестве обходного пути вы можете получить доступ к набору атрибутов _set_hyper напрямую, как указано в документации :

Гиперпараметры могут быть перезаписаны с помощью пользовательского кода

Поскольку это a tf.Variable , вы можете затем использовать assign для установки нового значения с помощью tf.Tensor :

 class SGD(keras.optimizers.Optimizer):
    def __init__(self, learning_rate=0.01, name="SGD", **kwargs):
        """Call super().__init__() and use _set_hyper() to store hyperparameters"""
        super().__init__(name, **kwargs)
        self._set_hyper("learning_rate", kwargs.get("lr", learning_rate)) # handle lr=learning_rate
        
    @tf.function
    def _resource_apply_dense(self, grad, var):
        learning_rate = self._get_hyper("learning_rate")
        new_learning_rate = learning_rate * 0.001
        new_var_m = var - grad * new_learning_rate
        self.learning_rate.assign(new_learning_rate)
        var.assign(new_var_m)