#matlab #speech-recognition
#matlab #распознавание речи
Вопрос:
Я работаю над речевым сигналом с извлечением огибающей. Я использую стандартное отклонение (std) в каждой точке значения огибающей. Однако значение std изменяется, когда я усиливаю речь. Какова логика, стоящая за этим? Насколько я понимаю, чем стабильнее речь, тем ниже стандартное отклонение, независимо от того, насколько велика громкость. Это потому, что огибающая примет форму сигнала. Я не понимаю, почему?
Ответ №1:
Если у вас есть сигнал x с выборками x1, x2, x3 … и вы хотите вычислить стандартное отклонение, вы можете использовать одну из формул, указанных здесь: http://www.mathworks.nl/help/matlab/ref/std.html . Если вы попробуете, например, сигнал с 3 выборками x1 = 1, x2 = 2, x3 = 3 и вторым сигналом, который является усиленной версией первого (например, x1 = 2, x2 = 4, x3 = 6), вы увидите, что усиление влияет наstd (в данном случае в 2 раза). Попробуйте записать формулы, и вы сможете определить, как усиление влияет на ЗППП. В этом был вопрос?
Комментарии:
1. Вы усиливаете речь, вы усиливаете огибающую, вы усиливаете std (поскольку
std(a*x)=a*std(x)
)2. Точно, независимо от сигнала
3. Спасибо schvaba986 и Итамару Кацу. Теперь я понял. Действительно решите мой вопрос в моей голове. Если вы не возражаете … можете ли вы предложить другой математический способ наблюдения за стабильностью данных (в частности, в речи). ? Я не силен в математике, но должен это сделать. Спасибо
4.Я не уверен, что вы подразумеваете под стабильностью данных. Вас интересует, насколько стационарен (то есть среднее значение и дисперсия не меняются) ваш сигнал? Вы можете проверить эти потоки, есть несколько примеров: dsp.stackexchange.com/questions/8436/…quant.stackexchange.com/questions/2372 /…
5. Привет, Schvaba986., Что я имел в виду из стабильности данных, это пик огибающей. Я уже извлек локальные максимумы, теперь я хочу измерить, является ли он стабильным (представьте, плоским) или нет (представьте, что он не стабилен). Однако моя система должна быть способна работать с любым объемом речи, потому что она будет учитывать только форму конверта. Я не знаю, какое измерение мне следует использовать, есть ли у вас какие-либо предложения? Я прошел по ссылке, которую вы предоставили, но мне нужно время, чтобы понять это. Я полагал, что это действительно просто, но не знаю как .. Большое спасибо