Можно ли использовать Тессеракт для распознавания сингальского рукописного текста?

#tesseract

Вопрос:

Я хочу восстановить поврежденные рукописные документы на сингальском языке. Пожалуйста, дайте мне знать: Может ли Тессеракт также использоваться для сингальского языка?

1.Вопросы StackOverflow, как правило, должны быть более существенными, чем то, что можно исследовать с помощью Google. Вот несколько статей, которые могут вам помочь: medium.com/@isurianuradha96/…researchgate.net/publication /.…

Ответ №1:

Извлеките tessdata папку из репозитория GitHub tesseract-ocr:

Там sin.traineddata есть для настоящего сингальского языка, и
вот script/Sinhala.traineddata тебе и сингальский сценарий.

Скопируйте один из них (или оба) в свою tessdata папку, возможно C:tesseracttessdata , расположенную на какой-нибудь машине с Windows.

Например, запустив Tesseract из командной строки, вы можете затем использовать

 tesseract myimage.png output -l sin

или

 tesseract myimage.png output -l Sinhala

Я сделал скриншот страницы Википедии с сингальским сценарием и обрезал следующую часть:

Обе вышеуказанные команды приводят к следующему результату:

 සිංහල අක්ෂර මාලාව

Мне это кажется прекрасным, но я не утверждаю, что могу читать или понимать какой-либо сингальский алфавит или язык!

Итак, в общем: Да, похоже, вы можете распознавать сингальские тексты!

НО: Что касается любого сценария, и, возможно, еще более сложного для нелатинских сценариев, вы, вероятно, не получите хороших результатов с рукописными текстами. Распознавание этих текстов-это отдельная область исследований.

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

мат-выбор панели всегда ложно

Запрос Mysql выдает ошибку 1054 неизвестного столбца?

Можем ли мы установить состояние компонента react в рабочем потоке?