Как сравнить WAV-файлы со звуком речи внутри?

#nlp #text-to-speech #voice-recognition

Вопрос:

Я пытаюсь решить следующую задачу:

  • Есть два файла wav со звуком речи (без музыки и других шумов, только произносимый текст).
  • Один файл-эталон. Он содержит речь, которая очень художественно/эмоционально выражена.
  • Эталонные и не эталонные носители могут иметь разный возраст, пол… другой голос, так сказать…
  • Цель не эталонного оратора-повторить не только текст, но и художественный стиль.

Я ищу инструмент или библиотеку с открытым исходным кодом, которые можно использовать для определения того, насколько близки эталонные и не эталонные речи.

 I do not consider solution like this:
   1. Convert etalon to text
   2. Convert non etalon to text
   3. Compare two texts.
It loses the pronunciation style information.