4-слойная нейронная сеть, использующая функцию активации relu, работает плохо

#python-3.x #deep-learning

#python-3.x #глубокое обучение

Вопрос:

Я пытался создать 4-слойную нейронную сеть, используя функцию активации relu

Но это работает плохо…

Я думаю, проблема в части обратного распространения.

потому что остальная часть кода работает хорошо, когда я использовал функцию активации сигмоида

Я исправил только часть обратного распространения

итак, не могли бы вы научить меня, что не так с моим кодом

Предстоящий код является частью моего класса нейронной сети

Кроме того, я не хочу использовать какие-либо фреймы глубокого обучения, извините ..!

     # train the neural network
def train(self, inputs_list, targets_list):
    # convert inputs list to 2d array
    inputs = numpy.array(inputs_list, ndmin=2).T
    targets = numpy.array(targets_list, ndmin=2).T

    # calculate signals into hidden layer
    hidden_inputs = numpy.dot(self.wih, inputs)
    # calculate the signals emerging from hidden layer
    hidden_outputs = self.activation_function(hidden_inputs)

    # calculate signals into hidden layer
    hidden_inputs2 = numpy.dot(self.wh1h2, hidden_outputs)
    # calculate the signals emerging from hidden layer
    hidden_outputs2 = self.activation_function(hidden_inputs2)

    # calculate signals into final output layer
    final_inputs = numpy.dot(self.wh2o, hidden_outputs2)
    # calculate the signals emerging from final output layer
    final_outputs = self.activation_function(final_inputs)

    # output layer error is the (target - actual)
    output_errors = targets - final_outputs
    # hidden layer error is the output_errors, split by weights, recombined at hidden nodes
    hidden_errors2 = numpy.dot(self.wh2o.T, output_errors) 
    # hidden layer error is the output_errors, split by weights, recombined at hidden nodes
    hidden_errors = numpy.dot(self.wh1h2.T, hidden_errors2)

    #Back propagation part
    # update the weights for the links between the hidden and output layers
    # self.wh2o  = self.lr * numpy.dot((output_errors * final_outputs * (1.0 - final_outputs)), numpy.transpose(hidden_outputs2))
    self.wh2o  = self.lr * numpy.dot((output_errors * numpy.heaviside(final_inputs,0.0) ), numpy.transpose(hidden_outputs2))

    # update the weights for the links between the input and hidden layers
    self.wh1h2  = self.lr * numpy.dot((hidden_errors2 * numpy.heaviside(hidden_inputs2, 0.0) ), numpy.transpose(hidden_outputs))

    # update the weights for the links between the input and hidden layers
    self.wih  = self.lr * numpy.dot((hidden_errors * numpy.heaviside(hidden_inputs, 0.0) ), numpy.transpose(inputs))



    pass
 

wh2o означает вес, который передает скрытый слой secod в outputlayer

wh1h2 означает вес, который распространяется с первого скрытого слоя на второй слой

что означает вес, который переносит входной слой на скрытый слой

Комментарии:

1. «Не работает хорошо» — это неправильное описание того, что не так, вам нужно быть точным в том, в чем заключается реальная проблема.

Ответ №1:

Не обращая внимания на специфику вашего кода; популярность relu в основном связана с его успехом в CNN. Для небольших задач регрессии, подобных этой, это довольно ужасный выбор, поскольку он действительно выдвигает на первый план проблему исчезающего градиента; что по сложным причинам не является такой большой проблемой в больших проблемах CNN. Существуют различные способы сделать вашу архитектуру более устойчивой к исчезающим градиентам; но моим первым предложением было бы не использовать relu (maxout — ваш лучший друг исчезающих градиентов — постоянная проблема). Итог; это вполне может не иметь ничего общего с проблемой в вашем коде, а быть чисто архитектурным.