iPhone: доступно распознавание речи в IOS SDK?

ProgramBox

iPhone: доступно распознавание речи в IOS SDK?

Post author:admin
Запись опубликована:22 февраля, 2023
Post category:Вопросы по программированию

#iphone #ios #speech-recognition #siri

#iPhone #iOS #распознавание речи #siri

Вопрос:

Кто-нибудь знает, что если API «преобразование речи в текст» и «преобразование текста в речь», используемые в Siri, доступны в IOS 5 или IOS 6 SDK?

Я исследовал, но ничего не смог найти об этом в документации, поэтому, если это не включено в SDK, есть ли на рынке качественные библиотеки «Siri»?

Ответ №1:

Siri пока недоступна в форме API, однако любое UITextField или UITextArea может быть продиктовано с помощью встроенной опции преобразования речи в текст.

1. tnx не могли бы вы дать дополнительные пояснения по этому поводу? как я могу это использовать?

2. Вам вообще не нужно «использовать» его — оно автоматически отображается пользователям, у которых есть такая опция. Все, что вам нужно сделать, это просто настроить поля ввода текста так, как если бы они были напечатаны, и пользователь должен нажать кнопку диктовки на клавиатуре. Прямое голосовое управление с помощью этого механизма невозможно, если только вы не сказали пользователю диктовать команды, и ваше текстовое поле не проанализировало его — хотя это может иметь сомнительную возможность отправки в app Store, учитывая, что это было бы слишком похоже на Siri, а также запутало пользователей.

Ответ №2:

Ознакомьтесь с Openears по адресу: http://www.politepix.com/openears Я использовал его в качестве эксперимента, и он отлично сработал. Он очень хорошо распознает предустановленные словари. Существует небольшая пауза в 1/2 секунды или около того, прежде чем он распознает слово, и оно путается в среде с большим количеством голосов (переполненный ресторан), но в достаточно тихой обстановке я обнаружил, что это отлично работает.

1. Будет ли Openears также преобразовывать речь в текст? Так, например, вы нажимаете кнопку, говорите в телефон, и он преобразует произнесенное слово в строку в текстовом поле?

2. Прошло много времени с тех пор, как я им пользовался, я создал быстрый прототип, который распознавал определенный набор слов. Это сработало блестяще. Я полагаю, что он также преобразует речь в текст, но у меня нет прямого опыта работы с ним. Но я связался с владельцем проекта, когда посмотрел на него, и он был чрезвычайно отзывчивым и полезным. p.s. извините за задержку с ответом, я некоторое время не возвращался в Stack.

3. OpenEars отлично работает, если у вас есть полный набор слов, включенных в файл конфигурации. Однако он не работает, если не находит слово в файле конфигурации. Итак, вопрос в том, как создать или импортировать полный конфигурационный файл с достаточным количеством слов для получения удовлетворительного результата? Есть ли список ВСЕХ разговорных слов, доступных для использования в конфигурации?

4. @CoolDocMan Они рекомендуют ограничить ваш «vocab» примерно 300 словами. Это не кажется жестким ограничением, но производительность начнет снижаться по мере увеличения размера вашего vocab (с более мощными устройствами, менее подверженными этому эффекту). OpenEars выполняет всю обработку на борту… Siri и большинство других speech SDK делают это на стороне сервера. Если вам нужно что-то, что распознает неструктурированный язык, это, вероятно, не ваш инструмент.

5. OpenEars кажется особенно замечательным, поскольку он использует бесплатный и открытый проект распознавания языка Sphinx Университета Карнеги-Меллона под названием CMU pocketSphinx. Файлы pocketSphinx могут быть адаптированы (хотя, я думаю, с некоторыми усилиями) Для адаптации к конкретным акцентам, таким как индийский акцент и т. Д.

Ответ №3:

iOS 10 представляет новый API распознавания речи — SFSpeechRecognizer .

https://developer.apple.com/videos/play/wwdc2016/509/

Ответ №4:

Siri доступна только в виде бета-версии на iPhone 4S, не уверен, планируется ли распространить ее на все устройства с поддержкой iOS 5. Трудно найти библиотеки с открытым исходным кодом для распознавания голоса. Вы могли бы изучить шлюз разработчика Nuance (dragon) здесь.

1. Для человека, который проголосовал против, я знаю, что это уже не так, но это было в октябре 2011 года, когда был дан этот ответ. Поэтому предоставление дополнительной информации, возможно, было бы лучшим подходом.

Ответ №5:

Возможно, вы также захотите ознакомиться с API-интерфейсами преобразования текста в речь и распознавания речи ispeech. Они уже позволяют вам включать его в свои приложения без особых проблем и на самом деле немного лучше, чем у Siri. Большая сила Siri — это NLP, а не базовая технология речи.

Ответ №6:

После iOS 10 вы можете использовать

Speech.framework

Он очень прост в использовании.Просто импортируйте речь в свой класс

 import Speech

let speechRecogizer = SFSpeechRecognizer(locale: Locale.init(identifier: "en-US"))!  //locale whatever you want to use
let recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
let recognitionTask:SFSpeechRecognitionTask = speechRecogizer.recognitionTask(with: recognitionRequest, resultHandler: { (result, error) in 
    print(result?.bestTranscription.formattedString) //here you can get your text 
})

Вы также можете проверить https://github.com/PKrupa94/SpeechManager за это.

Ответ №7:

Siri пока недоступна для разработчиков.

Ответ №8:

Мы создали SDK для распознавания отдельных слов (или небольших фраз), CeedVocal SDK. Мы используем его в нашем собственном приложении Vocalia. Это не бесплатно (но есть бесплатная пробная версия), дополнительная информация по адресу: http://www.creaceed.com/ceedvocal

Ответ №9:

Для распознавания речи вы можете использовать OpenEars (http://www.politepix.com/openears /), который работает в автономном режиме и обеспечивает хорошую точность.OpenEars можно бесплатно использовать в приложении для iPhone или iPad. Да, OpenEars обрабатывает функцию преобразования речи в текст.