#machine-learning #neural-network #pytorch #recurrent-neural-network
#машинное обучение #нейронная сеть #pytorch #рекуррентная нейронная сеть
Вопрос:
Я совершенно новичок в PyTorch и опробовал некоторые модели. Я хотел сделать простой прогноз rnn цен на фондовом рынке и нашел следующий код:
Я загружаю набор данных с помощью pandas, затем разделяю его на обучающие и тестовые данные и загружаю их в загрузчик данных pytorch для последующего использования в процессе обучения. Модель определена в классе GRU. Но фактическая проблема, похоже, заключается в оптимизации. Я думаю, что проблема может быть в градиентном взрыве. Я думал о добавлении отсечения градиента, но дизайн GRU должен фактически предотвращать взрыв градиента или я ошибаюсь? Что может привести к тому, что потеря мгновенно станет NaN (уже в первую эпоху)
from sklearn.preprocessing import MinMaxScaler
import time
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
from torch.utils.data import TensorDataset, DataLoader
batch_size = 200
input_dim = 1
hidden_dim = 32
num_layers = 2
output_dim = 1
num_epochs = 10
nvda = pd.read_csv('dataset/stocks/NVDA.csv')
price = nvda[['Close']]
scaler = MinMaxScaler(feature_range=(-1, 1))
price['Close'] = scaler.fit_transform(price['Close'].values.reshape(-1, 1))
def split_data(stock, lookback):
data_raw = stock.to_numpy() # convert to numpy array
data = []
# create all possible sequences of length seq_len
for index in range(len(data_raw) - lookback):
data.append(data_raw[index: index lookback])
data = np.array(data)
test_set_size = int(np.round(0.2 * data.shape[0]))
train_set_size = data.shape[0] - (test_set_size)
x_train = data[:train_set_size, :-1, :]
y_train = data[:train_set_size, -1, :]
x_test = data[train_set_size:, :-1]
y_test = data[train_set_size:, -1, :]
return [x_train, y_train, x_test, y_test]
lookback = 20 # choose sequence length
x_train, y_train, x_test, y_test = split_data(price, lookback)
train_data = TensorDataset(torch.from_numpy(x_train).float(), torch.from_numpy(y_train).float())
train_data = DataLoader(train_data, shuffle=True, batch_size=batch_size, drop_last=True)
test_data = TensorDataset(torch.from_numpy(x_test).float(), torch.from_numpy(y_test).float())
test_data = DataLoader(test_data, shuffle=True, batch_size=batch_size, drop_last=True)
class GRU(nn.Module):
def __init__(self, input_dim, hidden_dim, num_layers, output_dim):
super(GRU, self).__init__()
self.hidden_dim = hidden_dim
self.num_layers = num_layers
self.gru = nn.GRU(input_dim, hidden_dim, num_layers, batch_first=True, dropout=0.2)
self.fc = nn.Linear(hidden_dim, output_dim)
self.relu = nn.ReLU()
def forward(self, x, h):
out, h = self.gru(x, h)
out = self.fc(self.relu(out[:, -1]))
return out, h
def init_hidden(self, batch_size):
weight = next(self.parameters()).data
hidden = weight.new(self.num_layers, batch_size, self.hidden_dim).zero_()
return hidden
model = GRU(input_dim=input_dim, hidden_dim=hidden_dim, output_dim=output_dim, num_layers=num_layers)
criterion = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.0000000001)
model.train()
start_time = time.time()
h = model.init_hidden(batch_size)
for epoch in range(1, num_epochs 1):
for x, y in train_data:
h = h.data
model.zero_grad()
y_train_pred, h = model(x, h)
loss = criterion(y_train_pred, y)
print("Epoch ", epoch, "MSE: ", loss.item())
loss.backward()
optimizer.step()
training_time = time.time() - start_time
print("Training time: {}".format(training_time))
Это набор данных, который я использовал.
Комментарии:
1. Привет! GRU не предотвращает взрывающийся градиент; вместо этого он предотвращает исчезновение градиента. Таким образом, вы можете применить обрезку градиента. Вы должны обучать свой скейлер только с обучающими данными и использовать его для преобразования тестовых данных. Вам не нужно применять активацию relu к слою, который выдает вам выходные данные (я думаю, именно поэтому вы получили потерю nan); поэтому удалите его. Наконец, может быть, ваша скорость обучения слишком мала; вы должны начать с параметра по умолчанию, т.е. 1e-3.
2. Я использовал обрезку gard и удалил слой relu, но он все еще не работает. Значение grad clip, которое я использовал, было равно 1.
Ответ №1:
Не уверен, так ли это, но вы предварительно обработали и очистили данные? Я этого не знаю, но, возможно, какие-то значения отсутствуют или в этом что-то странное. Я проверил это здесь https://ca.finance .yahoo.com/quote/NVDA/history?p=NVDA и кажется, что в каждой паре строк есть какая-то нестыковка. Как я уже сказал, я не знаю, так ли это, но это может быть.
Комментарии:
1. Мои тестовые данные предварительно обработаны, как показано в примере, и я прошел через это, и я думаю, что их не нужно очищать