#python #audio-processing #librosa #spectrogram #data-augmentation
#python #обработка звука #librosa #спектрограмма #увеличение данных
Вопрос:
Ощущение этого преобразования для спектрограммы (где ось x — время, а ось y — частота) каким-то образом растягивает ее вдоль оси y в соответствии с различными значениями альфа, в то время как верхняя (максимальная частота) и нижняя (нулевая частота) остаются неизменными. Но сейчас я действительно не имею представления о том, как это реализовать.
Во-первых, на каком шаге я должен выполнить это частотное искажение? Я использую Librosa для извлечения функций и преобразования аудио в спектрограммы log-mel. Должно ли это быть сделано перед преобразованием в melsectrogram или до / после STFT?
Во-вторых, каким образом я могу сопоставить каждую частоту в соответствии с формулой? Автор упомянул, что они использовали геометрические преобразования изображений OpenCV, но я нашел только аффинное преобразование и преобразование перспективы, которые кажутся связанными, но мне не удалось добиться этого сопоставления с их помощью.
Любые предложения и комментарии приветствуются, большое вам спасибо!
Комментарии:
1. Не могли бы вы дать ссылку на статью / ресурс, в котором представлена эта формула / методика?
2. assets.amazon.science/8f/33/04709ab4460da4af7f80528ab61c/… Пожалуйста, обратитесь.