#paddle-paddle
Вопрос:
Недавно я наткнулся на PaddleOCR и мне интересно, как эта система распознавания сравнивается с Тессерактом. Имеются ли какие-либо данные или контрольные показатели?
Ответ №1:
Я нашел сравнение между PaddleOCR 2 и Тессерактом 4, но только для текстов на английском языке. Кратко резюмировал:
- PaddleOCR немного медленнее, чем Tesseract на процессорах, но с поддержкой GPU он превосходит Tesseract на 46% на стандартном GPU.
- Без постобработки PaddleOCR в основном допускает ошибки с отсутствующими пробелами между словами и знаками препинания. Однако эти ошибки можно легко исправить. После постобработки точность сравнима с Tesseract (на 1% меньше).
- Предварительно обученная модель для английского языка содержит только 10% от размера файла данных Tesseracts English train (2 МБ против 23 МБ).
Для китайских текстов, которые, по-видимому, являются основным приоритетом PaddleOCR на данный момент, ситуация может быть иной.
Ответ №2:
Я тестировал с ними английский и японский, но, что интересно, PaddleOCR, похоже, распознает их обоих лучше, чем Тессеракт. Обнаружение текста PaddleOCR также кажется лучше. Однако, согласно их сообщениям, PaddleOCR не очень хорошо справляется с пробелами, и есть жалобы от некитайских (или японских) пользователей. PaddleOCR очень стремится внедрить новейшие алгоритмы распознавания/обнаружения, опубликованные в качестве исследовательских работ, для которых я решил использовать PaddleOCR.
Комментарии:
1. Я также обнаружил, что PaddleOCR лучше, чем Тессеракт без самообучения