#google-speech-to-text-api
Вопрос:
Улучшенная модель для телефонных звонков что-то значит для меня, потому что в телефонном звонке, как правило, присутствует определенное качество звука. Однако я не знаю, чего ожидать от усовершенствованной модели «видео», и, похоже, для нее нет документации. В видео может быть огромный диапазон качества звука, от нетронутой видеозаписи, записанной в студии, до чьей-то едва слышной речи, записанной на открытом воздухе на iphone в ветреную погоду. Сжатие звука в видео также может быть повсюду. Для каких конкретных сценариев на самом деле предназначена модель «видео»? Когда это будет работать лучше, чем модель по умолчанию или модель телефонного звонка?
Комментарии:
1. Вы видели этот документ о видеомодели?
2. Вау, да, я определенно читал это много раз и почему-то просто не заметил описания моделей. Спасибо!
Ответ №1:
API преобразования речи в текст предлагает готовые модели, которые лучше всего подходят для конкретных сценариев. Одной из моделей является видеомодель, которая лучше всего подходит для указанного случая использования:
Используйте эту модель для записи аудио из видеоклипов или других источников (например, подкастов), имеющих несколько динамиков. Эта модель также часто является лучшим выбором для аудио, которое было записано с помощью высококачественного микрофона или с большим количеством фонового шума. Для достижения наилучших результатов предоставьте звук, записанный с частотой дискретизации 16 000 Гц или выше.
Примечание: Это премиальная модель, которая стоит дороже, чем стандартная ставка.
Для справки см. раздел Выбор моделей для получения более подробной информации о том, какие модели использовать.