как использовать tessdata_best для tesseract (pytesseract). Каковы аргументы и процедура?

#python #ocr #tesseract #python-tesseract #tesseract.js

#python #ocr #tesseract #python-tesseract #tesseract.js

Вопрос:

TL; DR: Как мне установить tessdata_best для использования с pytesseract inside conda в Ubuntu 18 ?

Я довольно долго использую среду pytesseract внутри conda , но есть необходимость повысить точность, и я обнаружил, что это tessdata_best дает вам наилучшую точность. Как я могу установить и использовать эту версию? Я использую Ubuntu 18 и должен работать с pytesseract .

У меня есть мой, tesseract установленный на /usr/share/tesseract-ocr/ , и внутри него есть только 1 tessdata .

Нужно ли мне получить tessdata_best из github, скопировав его в каталог /usr/share/tesseract-ocr/ рядом tessdata ?

Даже тогда, если я хочу использовать tessdata-best , что я должен использовать? Нужно ли мне изменить config as --oem 0/1/2/3 ?

Третье и последнее — у меня есть мои language.trainedata файлы в /home/deshwal/anaconda3/envs/py36/share/tessdata/eng.traineddata . Нужно ли мне также вставлять tessdata_best в это местоположение? Потому что, когда я пытаюсь изменить языковой каталог, это выдает мне ошибку, как:

/home/deshwal/anaconda3/envs/py36/share/tessdata/equ.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language 'equ' Tesseract couldn't load any languages! Could not initialize tesseract.'

Комментарии:

1. Если вы нашли ответ, пожалуйста, дайте мне знать. Если у вас их нет, попробуйте изучить возможность переобучения Tesseract на новых изображениях — это довольно сложная процедура обучения, но я думаю, что в конце концов это того стоит. Удачи!

2. Вы нашли ответ? Я хочу использовать tessdata_best, но я не знаю как.

3. @captaincustard До сих пор не повезло

Ответ №1:

Согласно документации pytesseract, вы можете использовать config аргумент с --tessdata-dir следующим образом :

 # Example config: r'--tessdata-dir "C:Program Files (x86)Tesseract-OCRtessdata"'
# It's important to add double quotes around the dir path.
tessdata_dir_config = r'--tessdata-dir "<replace_with_your_tessdata_dir_path>"'
pytesseract.image_to_string(image, lang='chi_sim', config=tessdata_dir_config)
  

Более подробную информацию см.https://pypi.org/project/pytesseract /.

Ответ №2:

Я не знаю, правильно ли я понимаю ваш вопрос, однако дайте мне знать, поможет ли приведенное ниже… Вам нужно задать путь к данным с указанием местоположения, куда вы будете копировать обучающие модели tessdata_best, например,

Tesseract tesseract = new Tesseract(); // Отображение интерфейса JNA tesseract.setDatapath(«/home/tesseract/tessdata_best_4_0_0/tessdata»);

Все ваши файлы .traineddata, которые вы загрузили с (https://github.com/tesseract-ocr/tessdata_best ) должны быть размещены в каталоге, который вы определяете в setDataPath (например:, /home/tesseract/tessdata_best_4_0_0/tessdata).

Пожалуйста, обратите внимание: эти модели работают только с механизмом распознавания LSTM Tesseract 4, поэтому убедитесь, что вы использовали библиотеку 4.1 или выше.

С уважением, Маулик