Модель языка Sphinx4 на голландском языке не работает

#java #cmusphinx #sphinx4

#ява #cmusphinx #sphinx4 #java

Вопрос:

Я только что создал языковую модель из короткого текстового файла. Я сделал это как для английского, так и для голландского языков, в первую очередь для сокращения времени распознавания за счет уменьшения возможностей. Я создал их с помощью Sphinx toolkit и basesphinx lm в двоичный конвертер. С моделью голландского языка можно ознакомиться здесь:http://pastebin.com/txkxiAc6 С английским текстом можно ознакомиться здесь:http://pastebin.com/fr3Epj5b Они оба маленькие, но английский распознает все, что ему нужно распознать.

Голландский использует голландский пакет Voxforge и словарь. Английская использует cmusphinx-en-us-8khz-5.2.tar.gz и словарь по умолчанию из pocketsphinx.

Код выглядит примерно так:

 Public static main(){
     configuration = new Configuration();
     configuration.setAcousticModelPath("src/main/resources/" language "/model");
     configuration.setDictionaryPath("src/main/resources/" language "/dict.dict");
     configuration.setLanguageModelPath("src/main/resources/" language "/model.lm.bin");
     context = new Context(configuration);
     recognizer = context.getInstance(Recognizer.class);
     recognizer.allocate();

     ----------GET INPUT STREAM AND SEND TO METHOD-------------

      RecognizeText(inputstream,outputstream)
}

private static String RecognizeText(InputStream stream, OutputStream os) throws Exception {
        context.setSpeechSource(stream, TimeFrame.INFINITE);
        Result resu<
        while ((result = recognizer.recognize()) != null) {
            SpeechResult speechResult = new SpeechResult(result);
            return speechResult.getHypothesis();
        }
        return "";
    }

Переменная ‘language’ может быть установлена на голландский или английский для правильного языка. Английский работает, а голландский — нет.
В чем моя ошибка? Кажется, я не могу его найти.

Папка с голландской акустической моделью содержит следующее:

 feat.params
mdef
means
mixture_weights
noisedict
transition_matrices
variances

Ответ №1:

Голландская модель была очень старой, она не обновлялась в течение 5 лет. Я только что загрузил новую модель на веб-сайт cmusphinx.

https://sourceforge.net/projects/cmusphinx/files/Acoustic and Language Models/Dutch/

Она должна быть более точной, но все же она обучается только с 13 часами данных. Английские модели обучаются более 1000 часов. Нам нужно больше расшифрованных голландских данных.

1. Разговорные корпуса Википедии предоставляют больше расшифрованных голландских данных. 224 часа, согласно принятой рукописи.

2. Ну, если вам нужна уже работающая модель, есть этот проект github.com/opensource-spraakherkenning-nl/Kaldi_NL

3. Да, я знаю. Я просто пытался помочь другим, которые, возможно, захотят обучить свою собственную модель.

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

Передача объектов python через интерпретаторы

разделить матрицу на один столбец

переставить многомерный массив php в соответствии с идентификатором