#speech-recognition #kaldi
#распознавание речи #kaldi
Вопрос:
Мы с дочерью строим робота-лошадь. Одна из целей дизайна — использовать распознавание речи для распознавания команд, отдаваемых лошади, и соответствующего реагирования. Поскольку большинство команд — это едва ли английские слова, мне нужно что-то, в чем я мог бы создавать собственные слова. У меня есть некоторый опыт работы с Kaldi-ASR, поэтому я решил сначала изучить его возможности.
Грамматика распознавания будет состоять из нескольких команд: Walk (Прогулка или два звука поцелуя), Trot (TT-ro-TT), Gallop (Gee-yup), Stop (вау), команда «Давай быстрее» (давай или цокай языком) плюс имя лошади инесколько фраз вроде «хороший мальчик» и несколько звуков, похожих на цоканье языком.
Аппаратное обеспечение, на котором оно будет работать, будет ограничено, вероятно, Raspberry Pi 4. (Но меня можно было бы уговорить на что-то более сложное, если бы для этого типа распознавания было значительное преимущество в скорости.)
Первая проблема заключается в том, что команды лошади даются с множеством разных акцентов, интонаций и акцентов, даже произносимых одними и теми же людьми. Например, Giddy-up может произноситься как Giddy-up, GEE-up, EE-YUP, gee-UP и т. Д.
Во-вторых, некоторые команды лошади — это не слова: цоканье языком, звуки поцелуев — два основных.
Первый вопрос: подходит ли Kaldi для этого? (Я использую его, но мало что знаю о теории, лежащей в его основе.) Хорошо ли он обрабатывает многочисленные произношения? Может ли это работать для несловесных высказываний, таких как прищелкивание языком или звуки поцелуя? Если нет, есть ли лучший механизм распознавания для этого типа распознавания?
Второй вопрос: как мне обрабатывать различные произношения? Считайте их разными словами и обучайте их отдельно, или Kaldi сможет справиться с этим, если я дам ему много образцов данных для обучения? Итак, будет ли разделение произношения на разные слова лучше распознаваться или использовать отдельные слова, обученные с большим количеством вариаций в их обучающем звуке?
Любые дополнительные советы о том, как лучше всего тренироваться для этих типов звуков, также приветствуются.
Комментарии:
1. Простой ответ заключается в том, что он будет хорошо работать при условии, что он видел совпадающие обучающие данные. Я бы посоветовал вам взглянуть на некоторые рецепты определения ключевых слов в Kaldi, такие как hi_mia.