#speech-to-text
#преобразование речи в текст
Вопрос:
Я хочу обучить и использовать персональный конвертер голоса в текст на основе ML для людей с сильно ослабленным голосом, для небольшого набора из 300-400 слов. Это приложение предназначено для людей с нарушениями голоса. Но не может быть универсальным, поскольку у каждого пользователя будет уникальный голосовой ввод слов в зависимости от типа нарушения.
Хотел узнать, существуют ли какие-либо движки ML, которые допускают такое обучение. Если нет, то каков наилучший подход к этому.
Спасибо
Ответ №1:
Большинство движков распознавания речи поддерживают обучение (wav2letter, deepspeech, espnet, kaldi и т.д.), Вам просто нужно ввести данные. Единственная проблема заключается в том, что вам нужно много данных для надежного обучения (1000 выборок для каждого слова). Вы можете проверить набор данных Google Commands, например, о том, как обучаться с нуля.
Поскольку набор обучающих данных для вашего случая будет довольно небольшим и будет состоять всего из нескольких выборок, вы, вероятно, можете начать с существующей предварительно обученной модели и доработать ее на своих выборках для достижения максимальной точности. Вам нужно обратить внимание на настройки «несколько коротких уроков».
Вероятно, вы можете посмотреть на предварительно подготовленную модель wav2vec 2.0, она должна быть эффективной для такого обучения. Вы можете найти примеры и команды для точной настройки и вывода здесь.
Вы также можете попробовать выполнить точную настройку моделей японских процессоров в Google Commands для NVIDIA NEMO. Это может быть немного менее эффективно, но все равно может работать и должно быть проще в настройке.
Ответ №2:
Я настоятельно рекомендую посмотреть второй эпизод первого сезона оригинального сериала «Эпоха искусственного интеллекта» на YouTube.
В принципе, Google уже сделал это для людей, которые не могут нормально произносить слова с искаженным голосом. Это очень интересно и немного рассказывает о том, как они это делали и как это делается с помощью технологий ML.
Комментарии:
1. Спасибо. Euphonia все еще находится на стадии исследования. Моя цель — помочь людям обучить персональный движок простой базовой транскрибации небольшого набора часто используемых слов. Если они смогут справиться всего с 50 словами, это будет отличным подспорьем вместо ожидания идеального переводчика. Все это при условии, что наиболее нуждающиеся потратят время на обучение.