Виртуальная машина глубокого обучения: Как освободить оперативную память?

# #python #tensorflow #google-cloud-platform #gcp-ai-platform-notebook #google-dl-platform

Вопрос:

Я совершенно новичок в GCP и виртуальной машине глубокого обучения. Я получил его для обучения некоторым моделям глубокого обучения. Во время обучения в ноутбуке Google cloud jupyter произошел сбой, так как он не смог скопировать тензор ввода с графического процессора на процессор: в частности:

 InternalError: Failed copying input tensor from /job:localhost/replica:0/task:0/device:GPU:0 to /job:localhost/replica:0/task:0/device:CPU:0 in order to run TensorDataset: Dst tensor is not initialized. [Op:TensorDataset]
 

После изучения этого , это происходит, когда в графическом процессоре недостаточно памяти. Я проверяю свою память, и моя оперативная память была заполнена на 95% всего через час после инициализации виртуальной машины. Я понятия не имею, как это произошло. Как я могу освободить эту память?

Комментарии:

1. r вы используете пользовательскую петлю поезда? используйте fit функцию keras, чтобы вам не приходилось беспокоиться об управлении памятью

2. @datdinhquoc, Нет, используя модель по умолчанию.fit(). Я тренируюсь примерно на 100 моделях, но в цикле for, поэтому сохраняется только результат, а не модель

Ответ №1:

Обнаружил, что память в графическом процессоре все еще присутствовала даже после завершения работы скрипта python. Запустите nvidia-smi , чтобы узнать, есть ли процесс python, занимающий память графического процессора, и если да, запустите pkill -9 python , чтобы убить всю связанную память и процессы для python.