Модель языка Sphinx4 на голландском языке не работает

#java #cmusphinx #sphinx4

#ява #cmusphinx #sphinx4 #java

Вопрос:

Я только что создал языковую модель из короткого текстового файла. Я сделал это как для английского, так и для голландского языков, в первую очередь для сокращения времени распознавания за счет уменьшения возможностей. Я создал их с помощью Sphinx toolkit и basesphinx lm в двоичный конвертер. С моделью голландского языка можно ознакомиться здесь:http://pastebin.com/txkxiAc6 С английским текстом можно ознакомиться здесь:http://pastebin.com/fr3Epj5b Они оба маленькие, но английский распознает все, что ему нужно распознать.

Голландский использует голландский пакет Voxforge и словарь. Английская использует cmusphinx-en-us-8khz-5.2.tar.gz и словарь по умолчанию из pocketsphinx.

Код выглядит примерно так:

 Public static main(){
     configuration = new Configuration();
     configuration.setAcousticModelPath("src/main/resources/" language "/model");
     configuration.setDictionaryPath("src/main/resources/" language "/dict.dict");
     configuration.setLanguageModelPath("src/main/resources/" language "/model.lm.bin");
     context = new Context(configuration);
     recognizer = context.getInstance(Recognizer.class);
     recognizer.allocate();

     ----------GET INPUT STREAM AND SEND TO METHOD-------------

      RecognizeText(inputstream,outputstream)
}

private static String RecognizeText(InputStream stream, OutputStream os) throws Exception {
        context.setSpeechSource(stream, TimeFrame.INFINITE);
        Result resu<
        while ((result = recognizer.recognize()) != null) {
            SpeechResult speechResult = new SpeechResult(result);
            return speechResult.getHypothesis();
        }
        return "";
    }
  

Переменная ‘language’ может быть установлена на голландский или английский для правильного языка. Английский работает, а голландский — нет.
В чем моя ошибка? Кажется, я не могу его найти.

Папка с голландской акустической моделью содержит следующее:

 feat.params
mdef
means
mixture_weights
noisedict
transition_matrices
variances
  

Ответ №1:

Голландская модель была очень старой, она не обновлялась в течение 5 лет. Я только что загрузил новую модель на веб-сайт cmusphinx.

https://sourceforge.net/projects/cmusphinx/files/Acoustic and Language Models/Dutch/

Она должна быть более точной, но все же она обучается только с 13 часами данных. Английские модели обучаются более 1000 часов. Нам нужно больше расшифрованных голландских данных.

Комментарии:

1. Разговорные корпуса Википедии предоставляют больше расшифрованных голландских данных. 224 часа, согласно принятой рукописи.

2. Ну, если вам нужна уже работающая модель, есть этот проект github.com/opensource-spraakherkenning-nl/Kaldi_NL

3. Да, я знаю. Я просто пытался помочь другим, которые, возможно, захотят обучить свою собственную модель.