#speech-recognition #core-audio #speech-to-text
Вопрос:
Не заполняя этот пост вздутием. Хотите использовать алгоритмы преобразования речи в текст для преобразования аудиофайлов wav/mp3/любых других в текстовые скрипты. Хотите сделать это локально, предпочтительно в виде команды оболочки (чтобы аудиоформат можно было подделать с помощью ffmpeg).
Кажется странным спрашивать об этом из-за siri и alexa, но все программное обеспечение, похоже, использует живой ввод, а не входной файл. Otter предлагает это, но стоит дорого, и мне трудно оправдать оплату чего-то, что уже является открытым исходным кодом в той или иной форме.
Я положил глаз на сфинкса, но прежде чем я потрачу слишком много времени, есть ли более простое решение, которое было разработано?
Запуск macOS, который все еще находится под флагом вашей Высокой Сьерра.
Ответ №1:
Ответ: начнем с простого, а затем уточним.
Я нашел Воска, чтобы сделать все, что мне нужно: https://alphacephei.com/vosk/
Установка библиотеки python3 была самым простым способом для моей ситуации (Mac osx 10.13).
$pip3 install vosk
На github Воска есть несколько примеров python, которые послужили хорошей основой для начала работы. Нужно было загрузить модель. Обе английские модели с сайта работали, и они находятся в подпапке под названием «модель», где лежат скрипты python.
Одна из проблем, с которой я столкнулся, некоторые сценарии требуют ffmpeg, которого у меня не было. Сценарий выдал очень загадочный набор ошибок, потому что функции подпрограммы пытались открыть файл «ffmpeg», когда команда bash не была найдена. Примеры python не проверяют наличие ffmpeg, поэтому убедитесь, что он установлен.
Я надеюсь, что этот ансер поможет другим!