#tesseract
Вопрос:
Я хочу восстановить поврежденные рукописные документы на сингальском языке. Пожалуйста, дайте мне знать: Может ли Тессеракт также использоваться для сингальского языка?
Комментарии:
1.Вопросы StackOverflow, как правило, должны быть более существенными, чем то, что можно исследовать с помощью Google. Вот несколько статей, которые могут вам помочь: medium.com/@isurianuradha96/…researchgate.net/publication /.…
Ответ №1:
Извлеките tessdata
папку из репозитория GitHub tesseract-ocr:
- Там
sin.traineddata
есть для настоящего сингальского языка, и - вот
script/Sinhala.traineddata
тебе и сингальский сценарий.
Скопируйте один из них (или оба) в свою tessdata
папку, возможно C:tesseracttessdata
, расположенную на какой-нибудь машине с Windows.
Например, запустив Tesseract из командной строки, вы можете затем использовать
tesseract myimage.png output -l sin
или
tesseract myimage.png output -l Sinhala
Я сделал скриншот страницы Википедии с сингальским сценарием и обрезал следующую часть:
Обе вышеуказанные команды приводят к следующему результату:
සිංහල අක්ෂර මාලාව
Мне это кажется прекрасным, но я не утверждаю, что могу читать или понимать какой-либо сингальский алфавит или язык!
Итак, в общем: Да, похоже, вы можете распознавать сингальские тексты!
НО: Что касается любого сценария, и, возможно, еще более сложного для нелатинских сценариев, вы, вероятно, не получите хороших результатов с рукописными текстами. Распознавание этих текстов-это отдельная область исследований.