Необходимо объединить два аудиоданных

#python #speech-recognition

#python #распознавание речи

Вопрос:

Я новичок в Python. Вот моя проблема, я получаю ввод через распознаватель речи. Пользователь произносит код типа ‘1234’ и снова произносит ‘3456’. Я сохраняю каждый из аудиоданных в переменной. Мне нужно объединить эти два.

 with sr.Microphone() as source:
    audio = r.listen(source)

 text2 = audio

with sr.Microphone() as source:
    audio = r.listen(source)

text3 = audio

Мне нужно объединить оба данных. Я должен предоставить их в качестве входных данных в текстовое поле.Есть ли какой-либо способ объединить эти данные?(text2 и text3), поскольку они являются аудио. Мне это нужно в переменной, а не в виде аудиофайла.

1. Какие типы вы пытаетесь объединить (что r.listen(source) возвращает)?

2. Вам просто нужна переменная, которая хранит каждый из text2 и text3, чтобы их можно было передавать вместе, или вы хотите, чтобы одна непрерывная звуковая дорожка сохранялась в одной переменной?

3. @CoffeeBeforeArch r.listen(источник) возвращает тип audio.

4. @bartcubrich Я. Данные в text2 и данные в text3 должны быть объединены в одно целое. Допустим, пользователь говорит ‘1234’. Он хранится в text2. Пользователь говорит ‘2345’. Он хранится в text3. Я должен объединить эти два в одной переменной. Поскольку это тип аудио, я не могу этого сделать.

5. Значит, новый звук будет ‘12342345’?

Ответ №1:

Первым шагом в процессе является использование распознавателя для преобразования вашего AudioData экземпляра в строку. Вы можете сделать это с помощью:

Создание распознавателя с использованием того же модуля

r = sr.Recognizer()

Преобразуйте экземпляр «audioData» в строку с помощью распознавателя

some_string1 = r.recognize_sphinx(audio)

Затем просто сделайте это для say some_string2 , и сделайте some_string1 some_string2 , чтобы объединить их.

1. Я пробовал, если я говорю 1234, он подбирает его как некоторые алфавиты, такие как ‘hhred’. Он не распознает это должным образом. Но вышеупомянутый метод работает 🙂

2. Это, вероятно, зависит от того, насколько хорош ваш алгоритм распознавания речи / транскрипции.