Оптимальные значения преобразования речи в Google в текст

#google-cloud-platform #speech-to-text #google-speech-to-text-api

#google-облачная платформа #преобразование речи в текст #google-speech-to-text-api

Вопрос:

Я пытаюсь оптимизировать преобразование речи в текстовые значения вызова в Node.js применение. Я пытаюсь определить, являются ли они в настоящее время наилучшей практикой.

Я понимаю, что преобразование речи в текст рекомендует кодировку LINEAR16 с частотой дискретизации 16 000 Гц, но это невозможно для VOIP, который отправляется на частоте 8000 Гц, и в настоящее время Twilio предлагает кодировку только в MULAW.

Что я хочу выяснить, так это то, что значения, используемые для «model», «use_enhanced» и «confidence», хороши?

 if (this.newStreamRequired()) {
  if (this.stream) {
    this.stream.destroy();
  }

  var request = {
    config: {
      encoding: "MULAW",
      sampleRateHertz: 8000,
      languageCode: "en-US",
      model: 'phone_call',
      use_enhanced: true,
      confidence: 1.0
    },
    single_utterance: false,
    interimResults: false,
    is_final: true
    
  };

  this.streamCreatedAt = new Date();
  this.stream = speech
    .streamingRecognize(request)
    .on("error", console.error)
    .on("data", (data) => {
      const result = data.results[0];
       if (result === undefined || result.alternatives[0] === undefined) {
         return;
       } 
      this.emit('transcription', result.alternatives[0].transcript);
    });
}
 

Ответ №1:

В целом трудно оценить, действительно ли ваши варианты являются лучшими. Лучший подход, который вы можете предпринять, — это изучить альтернативы, выполнить пару тестов и придерживаться параметров, которые дают наилучшие результаты.

В любом случае, давайте рассмотрим ваш конкретный случай:

  • Модель: лучшая модель для phone_call 8000 Гц, как указано здесь. Другие альтернативы лучше подходят для звука с частотой 16000 Гц.
  • Use_enhanced: единственными параметрами являются true / false . Должно быть легко запускать тесты с обоими подходами. На бумаге использование улучшенной модели должно давать лучшие результаты, особенно для phone call модели (см.).
  • Уверенность: это поле обычно является значением в ответе, я не думаю, что его можно включить в конфигурацию запроса по умолчанию. Обратите внимание, что конфигурация потоковой передачи основана на конфигурации по умолчанию.

В целом, я думаю, что ваши параметры в запросе имеют правильные значения, за исключением значения достоверности, которое может не соответствовать параметрам запроса.