Когда мне следует использовать улучшенную модель видео с помощью API преобразования речи в текст Google Cloud?

#google-speech-to-text-api

Вопрос:

Улучшенная модель для телефонных звонков что-то значит для меня, потому что в телефонном звонке, как правило, присутствует определенное качество звука. Однако я не знаю, чего ожидать от усовершенствованной модели «видео», и, похоже, для нее нет документации. В видео может быть огромный диапазон качества звука, от нетронутой видеозаписи, записанной в студии, до чьей-то едва слышной речи, записанной на открытом воздухе на iphone в ветреную погоду. Сжатие звука в видео также может быть повсюду. Для каких конкретных сценариев на самом деле предназначена модель «видео»? Когда это будет работать лучше, чем модель по умолчанию или модель телефонного звонка?

Комментарии:

1. Вы видели этот документ о видеомодели?

2. Вау, да, я определенно читал это много раз и почему-то просто не заметил описания моделей. Спасибо!

Ответ №1:

API преобразования речи в текст предлагает готовые модели, которые лучше всего подходят для конкретных сценариев. Одной из моделей является видеомодель, которая лучше всего подходит для указанного случая использования:

Используйте эту модель для записи аудио из видеоклипов или других источников (например, подкастов), имеющих несколько динамиков. Эта модель также часто является лучшим выбором для аудио, которое было записано с помощью высококачественного микрофона или с большим количеством фонового шума. Для достижения наилучших результатов предоставьте звук, записанный с частотой дискретизации 16 000 Гц или выше.

Примечание: Это премиальная модель, которая стоит дороже, чем стандартная ставка.

Для справки см. раздел Выбор моделей для получения более подробной информации о том, какие модели использовать.