#python #ocr #tesseract #python-tesseract #tesseract.js
#python #ocr #tesseract #python-tesseract #tesseract.js
Вопрос:
TL; DR: Как мне установить tessdata_best
для использования с pytesseract
inside conda
в Ubuntu 18
?
Я довольно долго использую среду pytesseract
внутри conda
, но есть необходимость повысить точность, и я обнаружил, что это tessdata_best
дает вам наилучшую точность. Как я могу установить и использовать эту версию? Я использую Ubuntu 18
и должен работать с pytesseract
.
У меня есть мой, tesseract
установленный на /usr/share/tesseract-ocr/
, и внутри него есть только 1 tessdata
.
Нужно ли мне получить tessdata_best
из github, скопировав его в каталог /usr/share/tesseract-ocr/
рядом tessdata
?
Даже тогда, если я хочу использовать tessdata-best
, что я должен использовать? Нужно ли мне изменить config
as --oem 0/1/2/3
?
Третье и последнее — у меня есть мои language.trainedata
файлы в /home/deshwal/anaconda3/envs/py36/share/tessdata/eng.traineddata
. Нужно ли мне также вставлять tessdata_best
в это местоположение? Потому что, когда я пытаюсь изменить языковой каталог, это выдает мне ошибку, как:
/home/deshwal/anaconda3/envs/py36/share/tessdata/equ.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language 'equ' Tesseract couldn't load any languages! Could not initialize tesseract.'
Комментарии:
1. Если вы нашли ответ, пожалуйста, дайте мне знать. Если у вас их нет, попробуйте изучить возможность переобучения Tesseract на новых изображениях — это довольно сложная процедура обучения, но я думаю, что в конце концов это того стоит. Удачи!
2. Вы нашли ответ? Я хочу использовать tessdata_best, но я не знаю как.
3. @captaincustard До сих пор не повезло
Ответ №1:
Согласно документации pytesseract, вы можете использовать config
аргумент с --tessdata-dir
следующим образом :
# Example config: r'--tessdata-dir "C:Program Files (x86)Tesseract-OCRtessdata"'
# It's important to add double quotes around the dir path.
tessdata_dir_config = r'--tessdata-dir "<replace_with_your_tessdata_dir_path>"'
pytesseract.image_to_string(image, lang='chi_sim', config=tessdata_dir_config)
Более подробную информацию см.https://pypi.org/project/pytesseract /.
Ответ №2:
Я не знаю, правильно ли я понимаю ваш вопрос, однако дайте мне знать, поможет ли приведенное ниже… Вам нужно задать путь к данным с указанием местоположения, куда вы будете копировать обучающие модели tessdata_best, например,
Tesseract tesseract = new Tesseract(); // Отображение интерфейса JNA tesseract.setDatapath(«/home/tesseract/tessdata_best_4_0_0/tessdata»);
Все ваши файлы .traineddata, которые вы загрузили с (https://github.com/tesseract-ocr/tessdata_best ) должны быть размещены в каталоге, который вы определяете в setDataPath (например:, /home/tesseract/tessdata_best_4_0_0/tessdata).
Пожалуйста, обратите внимание: эти модели работают только с механизмом распознавания LSTM Tesseract 4, поэтому убедитесь, что вы использовали библиотеку 4.1 или выше.
С уважением, Маулик