Ошибка тессеракта в преобразовании image_to_string (): ytesseract.pytesseract.TesseractError: (2, "Использование: файл ввода pytesseract [-l lang]")

#python #tesseract

Вопрос:

ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ: я понимаю, что есть много сообщений о Тессеракте. Я еще не нашел рабочего решения, которое не приводило бы к ошибкам.

Я пытаюсь просто использовать распознавание на изображении с помощью Тессеракта. Я пробовал множество решений на различных форумах и не добился успеха. Я преобразовал pdf-файл в изображение и сохранил указанное изображение. Затем я вызвал это изображение с помощью cv2. Я тоже собирался показать это изображение. Теперь я пытаюсь применить команду image_to_string() из Tesseract.

Я попытался настроить pytesseract.pytesseract.tesseract_cmd и убедился, что установлены как оболочка, так и пакет true tesseract. Вот код:

 from wand.image import Image
import cv2
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r'C:/Users/Afton/anaconda3/Scripts/pytesseract.exe'


# Convert from pdf and save as image
pdf = 'C:/path/example.pdf'
outputFilename = 'C:/path/example.jpg'

with Image(filename=pdf) as img:
    img.save(filename=outputFilename)

# Read image
imagePath = outputFilename
image = cv2.imread(imagePath)    

# Configure OCR with pytesseract
config = r'-l deu --oem 1 --psm 3'
text = pytesseract.image_to_string(image, config=config)

# Print text output
text = text.split('n')
print(text)

Это текущая ошибка:

 pytesseract.pytesseract.TesseractError: (2, 'Usage: pytesseract [-l lang] input_file')

Ранее ошибка была связана с вводом pytesseract.pytesseract.tesseract_cmd.

Любая помощь будет признательна.

Обновлено: изображение на немецком языке. Я попытался уточнить это в конфигурации.

Update2: Я попробовал альтернативный путь с этого ресурса (с моим местоположением файла)

 pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'

Теперь я получаю эту ошибку:

 pytesseract.pytesseract.TesseractError: (1, 'Error opening data file C:\Program Files\Tesseract-OCR/tessdata/deu.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language 'deu' Tesseract couldn't load any languages! Could not initialize tesseract.')

Примечание для других пользователей с этой проблемой: Скачал языковой пакет с https://github.com/tesseract-ocr/tessdata потому что я читаю немецкий документ. Все языковые файлы доступны здесь. Проблема заключалась в языковом разнообразии.

Ответ №1:

Эта строка неверна:

 pytesseract.pytesseract.tesseract_cmd = r'C:/Users/Afton/anaconda3/Scripts/pytesseract.exe'

Пожалуйста, ознакомьтесь с документацией pytesseract.