#speech-recognition #speech-to-text #speech #kaldi
#распознавание речи #преобразование речи в текст #речь #kaldi
Вопрос:
У меня есть слово / предложение, есть ли какой-либо способ / пакет с открытым исходным кодом, чтобы найти вероятность того, что пользователь произнес это слово / предложение
Ответ №1:
Наиболее часто используемые бесплатные наборы инструментов распознавания речи являются:
- Kaldi
- CMU Sphinx
Работая с Python, довольно просто настроить базовую систему распознавания речи, используя pocketsphinx-python. Немного сложнее, но, по моему опыту, с лучшим результатом — настроить систему с Kaldi, используя, например, kaldi-gstreamer-server.
Другой вариант — использовать API, подобный:
- Microsoft Bing Speech
- Google Cloud Speech
- IBM Преобразование речи в текст
Отличной отправной точкой для их проверки является эта библиотека Python для распознавания речи. Однако имейте в виду, что для этих сервисов вам понадобится ключ API.
В вашем случае вы говорите, что у вас есть данное предложение, и хотите получить вероятность того, что именно это предложение было произнесено. Это немного отличается от общей задачи распознавания речи, поскольку у вас есть больше предварительной информации, которая может сделать вашу оценку более точной. Для этой проблемы обычно используется термин определение ключевых слов, и вы можете попробовать использовать списки ключевых слов с CMU Sphinx.