Как создать новую языковую модель НЛП? - Питон

#python #nlp #voice-recognition #transcription

Вопрос:

я использую Google Api для расшифровки некоторых аудиофайлов в текст с помощью класса распознавателя. Я обнаружил, что существует ограниченное количество доступных языков, и наиболее распространенные и используемые на международном уровне являются его частью. Как я могу создать новый язык из словарного запаса и обучить его, чтобы затем использовать язык в качестве распознавателя для ввода звука

Используйте его как язык, как в en-US: `

 r = sr.Recognizer()  r.recognize_google(language="en-US",audio_text)`

Примечание: Я провел несколько поисков, но, похоже, не получил точного ответа на то, что мне нужно… Я на Python

Спасибо

1. Gensim библиотека предоставила вам простой и интуитивно понятный API для реализации различных типов языковых моделей в вашем желаемом корпусе. Я делал это несколько раз, но понятия не имею, как вы можете использовать его для задач распознавания речи.

2. @meti Спасибо тебе, это уже выводит меня на правильный путь

Ответ №1:

Если ваш вопрос звучит так: «Как обучить модель ML автоматическому распознаванию речи на определенном языке ?», вам сначала понадобится корпус с речью и их соответствующими расшифровками. Затем вы можете использовать, например, Speechbrain для обучения модели с корпусом.
Если вы просто хотите использовать ASR для вашего конкретного языка, не забудьте проверить, существует ли модель уже.

1. Спасибо! Это как раз мой вопрос…. проверю это и приду, если у кого-нибудь есть какие-нибудь рекомендации по созданию корпуса?

2. Создание корпуса для ASR — непростая задача, я думаю, что для одного человека требуется слишком много времени. Вот статья, в которой говорится об эффективных способах его создания. Я бы рекомендовал вам найти уже существующий корпус.