NeMo Conformer-CTC Многократно Предсказывает Одно И То Же Слово При Точной Настройке

#nlp #pytorch #speech-to-text #loss-function #fine-tune

Вопрос:

Я использую NeMo Conformer-CTC small в наборе данных LibriSpeech (чистое подмножество, около 29 тыс. входных данных, 90% используется для обучения и 10% для тестирования). Я использую Пыточную молнию.

Когда я пытаюсь тренироваться, модель заучивает 1 или 2 предложения за 50 эпох и застревает с потерей 60 с чем-то (я тоже тренировал ее в течение 200 эпох, и она не сдвинулась с места). Но когда я пытаюсь настроить его с помощью предварительно обученной модели из набора инструментов, он правильно предсказывает при проверке на вменяемость, а затем, когда он начинает обучение, он несколько раз предсказывает одно и то же слово или пару слов, и потеря продолжает увеличиваться, пока не достигнет 3e 07 и не станет nan.

У меня был тот же результат после изменения скорости обучения и использования другого набора данных (VCTK). Я попытался сделать то же самое с другой моделью (quartznet), и это сработало нормально.

Кто-нибудь знает, что может происходить?

Спасибо!