Обеспечение качества преобразования текста в речь (TTS)

#text-to-speech #qa

Вопрос:

Это больше похоже на общий вопрос, так как я не нашел никакой хорошей практики в Google.

Давайте предположим, что я разрабатываю новую систему TTS. На каком-то этапе я хочу протестировать его, в идеале с помощью какого-нибудь инструмента автоматизации, чтобы сократить время тестирования в будущем. Единственное, что я обнаружил, связанное с качеством синтезированной речи, — это то, что вы можете нанять/найти группу людей, которые будут оценивать качество синтеза «вручную», просто прослушивая сгенерированные фразы.

Итак, вопрос в том, как можно автоматизировать контроль качества для TTS? Есть ли для этого какие-нибудь инструменты?