Получение временных меток word для TTS

#google-cloud-platform #google-text-to-speech #google-speech-to-text-api

#google-облачная платформа #google-преобразование текста в речь #google-speech-to-text-api

Вопрос:

У меня есть текст на японском языке, который я превращаю в mp3 с помощью функции преобразования текста в речь в облаке Google.

Я также хочу иметь временные метки word для mp3, которые возвращаются Google.

Преобразование речи в текст в Google предлагает эту функциональность, но когда я отправляю файлы, которые я получаю из TTS в STT, результат не всегда хорош.

Каков наилучший способ также получить временные метки word для TTS mp3?

Ответ №1:

Google Cloud Преобразование речи в текст — это сервис на основе ML, поэтому ожидается, что результаты не всегда будут такими «хорошими», как вы могли бы ожидать, у него есть свои ограничения.

Что я мог бы предложить, так это взглянуть на их соответствующую документацию по этой теме, такую как лучшие практики, руководство и страница основы, в которых говорится об этом. Кроме того, вы могли бы взглянуть на проблемы в их платформе отслеживания проблем, например, на эту проблему, для получения дополнительной информации о ней, и даже если вы обнаружите воспроизводимую проблему в службе, вы можете опубликовать ее там, чтобы их команда могла знать об этом.