Архитектура распознавания webkitspeech

#webspeech-api #webkitspeechrecognition

#webspeech-api #Распознавание webkitspeech

Вопрос:

Я знаю, что webkitSpeechRecognition доступен только в браузере Chromium. Однако мне интересно, как он преобразует голос в текст?

Я попытался отслеживать сетевой журнал из консоли разработчика в Google Chrome и не вижу никакой сетевой активности. Я думал, что отправлю запрос API в Google, но я действительно этого не делаю.

Я также не могу найти ни одного архитектурного документа по этому вопросу.

У кого-нибудь есть идеи?

Ответ №1:

насколько мне известно, нет официальной документации для API Google Speech, который используется в Chromium, но он был «перепроектирован» путем проверки исходного кода Chromium

при поиске вы должны найти несколько блогов / руководств, в которых описывается, как можно использовать REST API

хорошее описание того, как его использовать, можно найти здесь

http://blog.travispayton.com/wp-content/uploads/2014/03/Google-Speech-API.pdf

(что касается описания в PDF: упомянутый «Speech API V1» к настоящему времени отключен, поэтому можно использовать только «Полнодуплексный API»)

Но обратите внимание, что вам нужен ключ API через консоль разработчика Google (для Speech API ); и для этого вы должны быть зарегистрированы в группе разработчиков Chromium. Кроме того, используя ваш собственный ключ, на данный момент Speech API ограничен 50 транзакциями в день.

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

как использовать переменную среды в клиенте и сервере в самом начале

Пользовательский элемент управления wpf, позволяющий вызывать методы управления для поддержки шаблона MVVM

Как я могу измерить задержку распространения потоков DynamoDB?