CUDA не хватает памяти при запуске Bert с Pytorch (ранее работал)

#pytorch #amazon-sagemaker #bert-language-model #spacy-transformers

#pytorch #amazon-sagemaker #bert-language-model #spacy-трансформеры

Вопрос:

Я создаю двоичную классификацию BERT в SageMaker с использованием Pytorch.

Ранее, когда я запускал модель, я устанавливал размер пакета равным 16, и модель могла успешно запускаться. Однако вчера после того, как я остановил SageMaker и перезапустил сегодня утром, я больше не могу запускать модель с размером пакета 16. Я могу запустить модель с размером пакета 8.
Однако модель не дает того же результата (конечно). Я больше ничего не менял между ними. Все остальные настройки те же. (За исключением того, что я изменил объем SageMaker с 30 ГБ на 200 ГБ.)

Кто-нибудь знает, что может вызвать эту проблему? Я действительно хочу воспроизвести результат с размером пакета 16.

Любые ответы помогут и заранее благодарим вас!

Комментарии:

1. Проверьте, есть ли другие процессы, запущенные на графическом процессоре.

2. @Ashwingeetd’Sa Спасибо за ваш ответ. Я обнаружил, что в серверной части запущены некоторые другие скрытые процессы python. Тем не менее, я даже остановил SageMaker и перезапустил его. Должен ли он просто останавливать все процессы, которые у меня есть?

3. Вы можете просто проверить, сколько памяти потребляют другие процессы. Вы можете предварительно остановить другие процессы и проверить, можете ли вы запустить BERT.

4. Можете ли вы предоставить более подробную информацию о том, где вы делаете это в SageMaker? Это в SageMaker NotebookInstance, SageMaker TrainingJob или что-то еще?