#pytorch #runtime-error #lstm
#pytorch #ошибка времени выполнения #lstm
Вопрос:
Процесс обучения запущен.Чтобы избежать ошибки нехватки памяти cuda, я установил 1 для размера пакета. Но через несколько эпох, иногда даже большую часть времени, я получаю RuntimeError: CUDA error: unspecified launch failure
ошибку.Это очень расстраивает. Каждый раз, когда я получаю ошибку, размер ввода меняется, поэтому ввод не происходит одинаково.
train.py:
for i, (inputs, target, _) in enumerate(train_loader):
print(torch.cuda.is_available())
input_var = [input.cuda() for input in inputs]
target_var = target.cuda()
output = model(input_var)
loss = criterion(output, target_var)
losses.update(loss.item(), 1)
# compute accuracy
prec1, prec5 = accuracy(output.data.cpu(), target, topk=(1,5))
top1.update(prec1[0].item(), 1)
top5.update(prec5[0].item(), 1)
# zero the parameter gradients
optimizer.zero_grad()
# compute gradient
loss.backward()
optimizer.step()
…..
Вывод :
True
136
Traceback (most recent call last):
File "....train.py", line 273, in <module>
train(train_loader, model, criterion, optimizer, epoch)
File ".....train.py", line 75, in train
input_var = [input.cuda() for input in inputs]
File "......train.py", line 75, in <listcomp>
input_var = [input.cuda() for input in inputs]
RuntimeError: CUDA error: unspecified launch failure
У вас есть какие-либо идеи, как я могу исправить ошибку?
Спасибо.
- Windows 10
- NVIDIA GeForce GTX 1060
- Torch 1.6
- Cuda 10.1
Комментарии:
1. Вы читали этот пост? discuss.pytorch.org/t /…
2. @YuchenZhong Делает это из памяти Cuda или просто я попытаюсь установить CUDA_LAUNCH_BLOCKING=1 для работы, поскольку мой код остановился в эпоху 17, а общее количество составляет 20 эпох, и для запуска потребовалось 10 дней