Как сравнить WAV-файлы со звуком речи внутри?

#nlp #text-to-speech #voice-recognition

Вопрос:

Я пытаюсь решить следующую задачу:

Есть два файла wav со звуком речи (без музыки и других шумов, только произносимый текст).
Один файл-эталон. Он содержит речь, которая очень художественно/эмоционально выражена.
Эталонные и не эталонные носители могут иметь разный возраст, пол… другой голос, так сказать…
Цель не эталонного оратора-повторить не только текст, но и художественный стиль.

Я ищу инструмент или библиотеку с открытым исходным кодом, которые можно использовать для определения того, насколько близки эталонные и не эталонные речи.

 I do not consider solution like this:
   1. Convert etalon to text
   2. Convert non etalon to text
   3. Compare two texts.
It loses the pronunciation style information.

Вопрос:

Вам также может понравиться

Java Stacktrace отключается слишком рано

Преобразование любого формата даты в en-US (мм / дд / гггг чч: мм: сс) с помощью JavaScript

Странная проблема с адресом памяти в Swift