#google-cloud-platform #speech-to-text #google-speech-to-text-api
#google-облачная платформа #преобразование речи в текст #google-speech-to-text-api
Вопрос:
Я пытаюсь оптимизировать преобразование речи в текстовые значения вызова в Node.js применение. Я пытаюсь определить, являются ли они в настоящее время наилучшей практикой.
Я понимаю, что преобразование речи в текст рекомендует кодировку LINEAR16 с частотой дискретизации 16 000 Гц, но это невозможно для VOIP, который отправляется на частоте 8000 Гц, и в настоящее время Twilio предлагает кодировку только в MULAW.
Что я хочу выяснить, так это то, что значения, используемые для «model», «use_enhanced» и «confidence», хороши?
if (this.newStreamRequired()) {
if (this.stream) {
this.stream.destroy();
}
var request = {
config: {
encoding: "MULAW",
sampleRateHertz: 8000,
languageCode: "en-US",
model: 'phone_call',
use_enhanced: true,
confidence: 1.0
},
single_utterance: false,
interimResults: false,
is_final: true
};
this.streamCreatedAt = new Date();
this.stream = speech
.streamingRecognize(request)
.on("error", console.error)
.on("data", (data) => {
const result = data.results[0];
if (result === undefined || result.alternatives[0] === undefined) {
return;
}
this.emit('transcription', result.alternatives[0].transcript);
});
}
Ответ №1:
В целом трудно оценить, действительно ли ваши варианты являются лучшими. Лучший подход, который вы можете предпринять, — это изучить альтернативы, выполнить пару тестов и придерживаться параметров, которые дают наилучшие результаты.
В любом случае, давайте рассмотрим ваш конкретный случай:
- Модель: лучшая модель для
phone_call
8000 Гц, как указано здесь. Другие альтернативы лучше подходят для звука с частотой 16000 Гц. - Use_enhanced: единственными параметрами являются true / false . Должно быть легко запускать тесты с обоими подходами. На бумаге использование улучшенной модели должно давать лучшие результаты, особенно для
phone call
модели (см.). - Уверенность: это поле обычно является значением в ответе, я не думаю, что его можно включить в конфигурацию запроса по умолчанию. Обратите внимание, что конфигурация потоковой передачи основана на конфигурации по умолчанию.
В целом, я думаю, что ваши параметры в запросе имеют правильные значения, за исключением значения достоверности, которое может не соответствовать параметрам запроса.