Как производительность PaddleOCR сравнивается с Tesseract?

#paddle-paddle

Вопрос:

Недавно я наткнулся на PaddleOCR и мне интересно, как эта система распознавания сравнивается с Тессерактом. Имеются ли какие-либо данные или контрольные показатели?

Ответ №1:

Я нашел сравнение между PaddleOCR 2 и Тессерактом 4, но только для текстов на английском языке. Кратко резюмировал:

  1. PaddleOCR немного медленнее, чем Tesseract на процессорах, но с поддержкой GPU он превосходит Tesseract на 46% на стандартном GPU.
  2. Без постобработки PaddleOCR в основном допускает ошибки с отсутствующими пробелами между словами и знаками препинания. Однако эти ошибки можно легко исправить. После постобработки точность сравнима с Tesseract (на 1% меньше).
  3. Предварительно обученная модель для английского языка содержит только 10% от размера файла данных Tesseracts English train (2 МБ против 23 МБ).

Для китайских текстов, которые, по-видимому, являются основным приоритетом PaddleOCR на данный момент, ситуация может быть иной.

Ответ №2:

Я тестировал с ними английский и японский, но, что интересно, PaddleOCR, похоже, распознает их обоих лучше, чем Тессеракт. Обнаружение текста PaddleOCR также кажется лучше. Однако, согласно их сообщениям, PaddleOCR не очень хорошо справляется с пробелами, и есть жалобы от некитайских (или японских) пользователей. PaddleOCR очень стремится внедрить новейшие алгоритмы распознавания/обнаружения, опубликованные в качестве исследовательских работ, для которых я решил использовать PaddleOCR.

Комментарии:

1. Я также обнаружил, что PaddleOCR лучше, чем Тессеракт без самообучения