#nlp #text-to-speech #voice-recognition
Вопрос:
Я пытаюсь решить следующую задачу:
- Есть два файла wav со звуком речи (без музыки и других шумов, только произносимый текст).
- Один файл-эталон. Он содержит речь, которая очень художественно/эмоционально выражена.
- Эталонные и не эталонные носители могут иметь разный возраст, пол… другой голос, так сказать…
- Цель не эталонного оратора-повторить не только текст, но и художественный стиль.
Я ищу инструмент или библиотеку с открытым исходным кодом, которые можно использовать для определения того, насколько близки эталонные и не эталонные речи.
I do not consider solution like this:
1. Convert etalon to text
2. Convert non etalon to text
3. Compare two texts.
It loses the pronunciation style information.