Как исправить эту потерю — проблема NaN в PyTorch этого RNN с GRU?

#machine-learning #neural-network #pytorch #recurrent-neural-network

#машинное обучение #нейронная сеть #pytorch #рекуррентная нейронная сеть

Вопрос:

Я совершенно новичок в PyTorch и опробовал некоторые модели. Я хотел сделать простой прогноз rnn цен на фондовом рынке и нашел следующий код:

Я загружаю набор данных с помощью pandas, затем разделяю его на обучающие и тестовые данные и загружаю их в загрузчик данных pytorch для последующего использования в процессе обучения. Модель определена в классе GRU. Но фактическая проблема, похоже, заключается в оптимизации. Я думаю, что проблема может быть в градиентном взрыве. Я думал о добавлении отсечения градиента, но дизайн GRU должен фактически предотвращать взрыв градиента или я ошибаюсь? Что может привести к тому, что потеря мгновенно станет NaN (уже в первую эпоху)

 from sklearn.preprocessing import MinMaxScaler

import time
import pandas as pd
import numpy as np

import torch
import torch.nn as nn
from torch.utils.data import TensorDataset, DataLoader

batch_size = 200
input_dim = 1
hidden_dim = 32
num_layers = 2
output_dim = 1
num_epochs = 10

nvda = pd.read_csv('dataset/stocks/NVDA.csv')
price = nvda[['Close']]
scaler = MinMaxScaler(feature_range=(-1, 1))
price['Close'] = scaler.fit_transform(price['Close'].values.reshape(-1, 1))

def split_data(stock, lookback):
    data_raw = stock.to_numpy()  # convert to numpy array
    data = []

    # create all possible sequences of length seq_len
    for index in range(len(data_raw) - lookback):
        data.append(data_raw[index: index   lookback])

    data = np.array(data)
    test_set_size = int(np.round(0.2 * data.shape[0]))
    train_set_size = data.shape[0] - (test_set_size)

    x_train = data[:train_set_size, :-1, :]
    y_train = data[:train_set_size, -1, :]

    x_test = data[train_set_size:, :-1]
    y_test = data[train_set_size:, -1, :]

    return [x_train, y_train, x_test, y_test]


lookback = 20  # choose sequence length
x_train, y_train, x_test, y_test = split_data(price, lookback)

train_data = TensorDataset(torch.from_numpy(x_train).float(), torch.from_numpy(y_train).float())
train_data = DataLoader(train_data, shuffle=True, batch_size=batch_size, drop_last=True)

test_data = TensorDataset(torch.from_numpy(x_test).float(), torch.from_numpy(y_test).float())
test_data = DataLoader(test_data, shuffle=True, batch_size=batch_size, drop_last=True)


class GRU(nn.Module):
    def __init__(self, input_dim, hidden_dim, num_layers, output_dim):
        super(GRU, self).__init__()
        self.hidden_dim = hidden_dim
        self.num_layers = num_layers

        self.gru = nn.GRU(input_dim, hidden_dim, num_layers, batch_first=True, dropout=0.2)
        self.fc = nn.Linear(hidden_dim, output_dim)
        self.relu = nn.ReLU()

    def forward(self, x, h):

        out, h = self.gru(x, h)
        out = self.fc(self.relu(out[:, -1]))
        return out, h

    def init_hidden(self, batch_size):
        weight = next(self.parameters()).data
        hidden = weight.new(self.num_layers, batch_size, self.hidden_dim).zero_()
        return hidden


model = GRU(input_dim=input_dim, hidden_dim=hidden_dim, output_dim=output_dim, num_layers=num_layers)
criterion = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.0000000001)
model.train()

start_time = time.time()

h = model.init_hidden(batch_size)
for epoch in range(1, num_epochs 1):
    for x, y in train_data:
        h = h.data
        model.zero_grad()
        y_train_pred, h = model(x, h)
        loss = criterion(y_train_pred, y)
        print("Epoch ", epoch, "MSE: ", loss.item())
        loss.backward()
        optimizer.step()


training_time = time.time() - start_time
print("Training time: {}".format(training_time))
  

Это набор данных, который я использовал.

Комментарии:

1. Привет! GRU не предотвращает взрывающийся градиент; вместо этого он предотвращает исчезновение градиента. Таким образом, вы можете применить обрезку градиента. Вы должны обучать свой скейлер только с обучающими данными и использовать его для преобразования тестовых данных. Вам не нужно применять активацию relu к слою, который выдает вам выходные данные (я думаю, именно поэтому вы получили потерю nan); поэтому удалите его. Наконец, может быть, ваша скорость обучения слишком мала; вы должны начать с параметра по умолчанию, т.е. 1e-3.

2. Я использовал обрезку gard и удалил слой relu, но он все еще не работает. Значение grad clip, которое я использовал, было равно 1.

Ответ №1:

Не уверен, так ли это, но вы предварительно обработали и очистили данные? Я этого не знаю, но, возможно, какие-то значения отсутствуют или в этом что-то странное. Я проверил это здесь https://ca.finance .yahoo.com/quote/NVDA/history?p=NVDA и кажется, что в каждой паре строк есть какая-то нестыковка. Как я уже сказал, я не знаю, так ли это, но это может быть.

Комментарии:

1. Мои тестовые данные предварительно обработаны, как показано в примере, и я прошел через это, и я думаю, что их не нужно очищать