Утилита командной строки Tesseract v4.1.0 и v5.0.0 OCR не находит отдельных напечатанных H и 8 символов

#windows #command-line #ocr #tesseract

Вопрос:

Я пытаюсь распознать новые 26 символов шрифта размером 8 и H, равномерно распределенных по странице размером 8,5 на 11 дюймов. Он был напечатан на прозрачном струйном принтере, а затем снят с помощью камеры.

Я использую следующую команду:

 tesseract.exe --psm x [INPUT_FILE_NAME].bmp [OUTPUT_FILE_NAME] hocr
    where x is 0-13
 

Мне нужна функция hocr,так как я действительно хочу, чтобы координаты X, Y были частью выходных данных. Однако успех распознавания настолько плох, что он непригоден для использования. Я перепробовал все значения PSM (0-13), но ни одно из них не лучше, чем любые другие значения. Это пример вывода для первой строки. Он неправильно идентифицирует один символ.

   <span class='ocrx_word' id='word_1_1' title='bbox 804 123 884 143; x_wconf 2'>Sree</span>
  <span class='ocrx_word' id='word_1_2' title='bbox 889 123 915 140; x_wconf 30'>ea</span>
  <span class='ocrx_word' id='word_1_3' title='bbox 920 121 1018 137; x_wconf 4'>EAST</span>
  <span class='ocrx_word' id='word_1_4' title='bbox 1024 124 1083 129; x_wconf 11'>ay</span>
  <span class='ocrx_word' id='word_1_5' title='bbox 1088 105 1233 129; x_wconf 28'>anni</span>
  <span class='ocrx_word' id='word_1_6' title='bbox 1246 102 1336 116; x_wconf 41'>TT</span>
  <span class='ocrx_word' id='word_1_7' title='bbox 2421 39 2423 41; x_wconf 56'>|</span>
 

Два изображения ниже представляют оригинал и результат печати изображение с камеры. Я знаю, что результат темнее, но я бы сделал это, хотя бы для того, чтобы получить хотя бы несколько правильных идентификаций.

Я собираюсь сделать персонажей больше и разложить их по полочкам.

Есть ли другие варианты с Tesseact, которые могли бы мне помочь? Есть ли другие вещи, которые я могу сделать с оригиналом, чтобы добиться большего успеха (разные символы, шрифты или размеры)? Существуют ли другие инструменты, кроме Тессеракта, которые могли бы быть более подходящими для этой задачи?

Премного благодарен.

Исходный набор символов был создан с помощью word.
Изображение на картинке не очень хорошее, но оно должно быть достаточно четким, чтобы работать намного лучше, чем есть на самом деле.