Как производительность PaddleOCR сравнивается с Tesseract?

#paddle-paddle

Вопрос:

Недавно я наткнулся на PaddleOCR и мне интересно, как эта система распознавания сравнивается с Тессерактом. Имеются ли какие-либо данные или контрольные показатели?

Ответ №1:

Я нашел сравнение между PaddleOCR 2 и Тессерактом 4, но только для текстов на английском языке. Кратко резюмировал:

PaddleOCR немного медленнее, чем Tesseract на процессорах, но с поддержкой GPU он превосходит Tesseract на 46% на стандартном GPU.
Без постобработки PaddleOCR в основном допускает ошибки с отсутствующими пробелами между словами и знаками препинания. Однако эти ошибки можно легко исправить. После постобработки точность сравнима с Tesseract (на 1% меньше).
Предварительно обученная модель для английского языка содержит только 10% от размера файла данных Tesseracts English train (2 МБ против 23 МБ).

Для китайских текстов, которые, по-видимому, являются основным приоритетом PaddleOCR на данный момент, ситуация может быть иной.

Ответ №2:

Я тестировал с ними английский и японский, но, что интересно, PaddleOCR, похоже, распознает их обоих лучше, чем Тессеракт. Обнаружение текста PaddleOCR также кажется лучше. Однако, согласно их сообщениям, PaddleOCR не очень хорошо справляется с пробелами, и есть жалобы от некитайских (или японских) пользователей. PaddleOCR очень стремится внедрить новейшие алгоритмы распознавания/обнаружения, опубликованные в качестве исследовательских работ, для которых я решил использовать PaddleOCR.

Вопрос:

Ответ №1:

Ответ №2:

Комментарии:

Вам также может понравиться

Приложение Electron-builder показывает пустой экран для 32-разрядной версии, но работает для 64-разрядной версии

Динамически изменять точку / маркер при нажатии Openlayers 5

Отсутствующие файлы в dockerfile и проблема с запуском скрипта docker