Что делает recurrent_initializer?

#tensorflow #keras #deep-learning #recurrent-neural-network

#тензорный поток #keras #глубокое обучение #рекуррентная нейронная сеть

Вопрос:

Я экспериментирую с повторяющимися слоями нейронной сети в tensorflow amp; keras, и я смотрю на recurrent_initializer. Я хотел узнать больше о его влиянии на слой, поэтому я создал слой SimpleRNN следующим образом:

 rnn_layer = keras.layers.SimpleRNN(1, return_sequences=True, kernel_initializer = keras.initializers.ones, recurrent_initializer=keras.initializers.zeros, activation="linear")
  

Запуск этого кода делает добавление в рекуррентной сети видимым:

 inp = np.zeros(shape=(1,1,20), dtype=np.float32)
for i in range(20):
    inp[0][0][:i] = 5
    #inp[0][0][i:] = 0
    
    print(f"i:{i} {rnn_layer(inp)}"'')
  

вывод:

 i:0 [[[0.]]]
i:1 [[[5.]]]
i:2 [[[10.]]]
i:3 [[[15.]]]
i:4 [[[20.]]]
i:5 [[[25.]]]
i:6 [[[30.]]]
i:7 [[[35.]]]
i:8 [[[40.]]]
i:9 [[[45.]]]
i:10 [[[50.]]]
i:11 [[[55.]]]
i:12 [[[60.]]]
i:13 [[[65.]]]
i:14 [[[70.]]]
i:15 [[[75.]]]
i:16 [[[80.]]]
i:17 [[[85.]]]
i:18 [[[90.]]]
i:19 [[[95.]]]
  

Теперь я меняю recurrent_initializer на что-то другое, например, распределение glorot_normal:

 rnn_layer = keras.layers.SimpleRNN(1, return_sequences=True, kernel_initializer = keras.initializers.ones, recurrent_initializer=keras.initializers.glorot_normal(seed=0), activation="linear")
  

Но я все равно получаю те же результаты. Я подумал, что это может зависеть от некоторой логики, которая отсутствует в Rnn, но есть в LSTM, поэтому я попробовал это с lstm, но результаты все те же. Я думаю, что в recurrent_logic есть что-то, чего я все еще не понимаю. Может кто-нибудь объяснить мне, какова цель reccurent_initializers и как это влияет на рекуррентный уровень?

Большое спасибо!

Ответ №1:

Ваш ввод в слой RNN имеет форму (1, 1, 20), что означает один временной шаг для каждой партии , поведение RNN по умолчанию заключается в сбросе состояния между каждой партией , поэтому вы не можете видеть эффект повторяющихся операций (recurrent_initializers). Вы должны изменить длину последовательности вашего ввода:

 inp = np.ones(shape=(5 ,4,1), dtype=np.float32) # sequence length == 4
rnn_layer1 = tf.keras.layers.LSTM(1,return_state=True, return_sequences=False, 
           kernel_initializer = tf.keras.initializers.ones, 
           recurrent_initializer=tf.keras.initializers.zeros, activation="linear")
rnn_layer2 = tf.keras.layers.LSTM(1,return_state=True , return_sequences=False, 
           kernel_initializer = tf.keras.initializers.ones, 
           recurrent_initializer=tf.keras.initializers.glorot_normal(seed=0), 
           activation="linear")

first_sample = inp[0 : 1 , : ,:  ] #shape(1,4,1)
print(rnn_layer1(first_sample )
print(rnn_layer2(first_sample )
  

Комментарии:

1. Только что нашел это решение самостоятельно, все еще большое спасибо за ваше объяснение! Теперь я еще немного поэкспериментирую с этим, чтобы лучше понять, ваш ответ мне хорошо поможет