#python #speech-recognition
#python #распознавание речи
Вопрос:
Я новичок в Python. Вот моя проблема, я получаю ввод через распознаватель речи. Пользователь произносит код типа ‘1234’ и снова произносит ‘3456’. Я сохраняю каждый из аудиоданных в переменной. Мне нужно объединить эти два.
with sr.Microphone() as source:
audio = r.listen(source)
text2 = audio
with sr.Microphone() as source:
audio = r.listen(source)
text3 = audio
Мне нужно объединить оба данных. Я должен предоставить их в качестве входных данных в текстовое поле.Есть ли какой-либо способ объединить эти данные?(text2 и text3), поскольку они являются аудио. Мне это нужно в переменной, а не в виде аудиофайла.
Комментарии:
1. Какие типы вы пытаетесь объединить (что
r.listen(source)
возвращает)?2. Вам просто нужна переменная, которая хранит каждый из text2 и text3, чтобы их можно было передавать вместе, или вы хотите, чтобы одна непрерывная звуковая дорожка сохранялась в одной переменной?
3. @CoffeeBeforeArch r.listen(источник) возвращает тип audio.
4. @bartcubrich Я. Данные в text2 и данные в text3 должны быть объединены в одно целое. Допустим, пользователь говорит ‘1234’. Он хранится в text2. Пользователь говорит ‘2345’. Он хранится в text3. Я должен объединить эти два в одной переменной. Поскольку это тип аудио, я не могу этого сделать.
5. Значит, новый звук будет ‘12342345’?
Ответ №1:
Первым шагом в процессе является использование распознавателя для преобразования вашего AudioData
экземпляра в строку. Вы можете сделать это с помощью:
Создание распознавателя с использованием того же модуля
r = sr.Recognizer()
Преобразуйте экземпляр «audioData» в строку с помощью распознавателя
some_string1 = r.recognize_sphinx(audio)
Затем просто сделайте это для say some_string2
, и сделайте some_string1 some_string2
, чтобы объединить их.
Комментарии:
1. Я пробовал, если я говорю 1234, он подбирает его как некоторые алфавиты, такие как ‘hhred’. Он не распознает это должным образом. Но вышеупомянутый метод работает 🙂
2. Это, вероятно, зависит от того, насколько хорош ваш алгоритм распознавания речи / транскрипции.