Можно ли использовать Тессеракт для распознавания сингальского рукописного текста?

#tesseract

Вопрос:

Я хочу восстановить поврежденные рукописные документы на сингальском языке. Пожалуйста, дайте мне знать: Может ли Тессеракт также использоваться для сингальского языка?

Комментарии:

1.Вопросы StackOverflow, как правило, должны быть более существенными, чем то, что можно исследовать с помощью Google. Вот несколько статей, которые могут вам помочь: medium.com/@isurianuradha96/…researchgate.net/publication /.

Ответ №1:

Извлеките tessdata папку из репозитория GitHub tesseract-ocr:

  • Там sin.traineddata есть для настоящего сингальского языка, и
  • вот script/Sinhala.traineddata тебе и сингальский сценарий.

Скопируйте один из них (или оба) в свою tessdata папку, возможно C:tesseracttessdata , расположенную на какой-нибудь машине с Windows.

Например, запустив Tesseract из командной строки, вы можете затем использовать

 tesseract myimage.png output -l sin
 

или

 tesseract myimage.png output -l Sinhala
 

Я сделал скриншот страницы Википедии с сингальским сценарием и обрезал следующую часть:

Урожай

Обе вышеуказанные команды приводят к следующему результату:

 සිංහල අක්ෂර මාලාව
 

Мне это кажется прекрасным, но я не утверждаю, что могу читать или понимать какой-либо сингальский алфавит или язык!

Итак, в общем: Да, похоже, вы можете распознавать сингальские тексты!

НО: Что касается любого сценария, и, возможно, еще более сложного для нелатинских сценариев, вы, вероятно, не получите хороших результатов с рукописными текстами. Распознавание этих текстов-это отдельная область исследований.