Ошибка RuntimeError: ошибка CUDA: неопределенный сбой запуска с python 3.7

#pytorch #runtime-error #lstm

#pytorch #ошибка времени выполнения #lstm

Вопрос:

Процесс обучения запущен.Чтобы избежать ошибки нехватки памяти cuda, я установил 1 для размера пакета. Но через несколько эпох, иногда даже большую часть времени, я получаю RuntimeError: CUDA error: unspecified launch failure ошибку.Это очень расстраивает. Каждый раз, когда я получаю ошибку, размер ввода меняется, поэтому ввод не происходит одинаково.

train.py:

 for i, (inputs, target, _) in enumerate(train_loader):
    print(torch.cuda.is_available())
    input_var = [input.cuda() for input in inputs]
    target_var = target.cuda()
    output = model(input_var)
    loss = criterion(output, target_var)

losses.update(loss.item(), 1)

# compute accuracy
prec1, prec5 = accuracy(output.data.cpu(), target, topk=(1,5))
top1.update(prec1[0].item(), 1)
top5.update(prec5[0].item(), 1)

# zero the parameter gradients
optimizer.zero_grad()

# compute gradient
loss.backward()
optimizer.step()
 

…..

Вывод :

 True
136
Traceback (most recent call last):

  File "....train.py", line 273, in <module>
    train(train_loader, model, criterion, optimizer, epoch)

  File ".....train.py", line 75, in train
    input_var = [input.cuda() for input in inputs]

  File "......train.py", line 75, in <listcomp>
    input_var = [input.cuda() for input in inputs]

RuntimeError: CUDA error: unspecified launch failure
 

У вас есть какие-либо идеи, как я могу исправить ошибку?
Спасибо.

  • Windows 10
  • NVIDIA GeForce GTX 1060
  • Torch 1.6
  • Cuda 10.1

Комментарии:

1. Вы читали этот пост? discuss.pytorch.org/t /…

2. @YuchenZhong Делает это из памяти Cuda или просто я попытаюсь установить CUDA_LAUNCH_BLOCKING=1 для работы, поскольку мой код остановился в эпоху 17, а общее количество составляет 20 эпох, и для запуска потребовалось 10 дней