Как вы гарантируете, что прочитали и извлекли все текстовые данные из PDF с помощью python?

#python #pdf #nlp #data-science #ocr

Вопрос:

Я использую pdfminer.six для чтения и извлечения данных из PDF-файлов на моем терминале python. Я наткнулся на один вопрос и до сих пор не нашел на него почти никакого ответа. Я читаю/извлекаю около 20 файлов pdf и извлекаю текстовые данные, но как мне убедиться, что все текстовые данные извлечены правильно? Один из способов-OCR(оптическое распознавание символов), либо тессеракт, либо Microsoft, либо какой-то другой, но все равно они не очень точны. Существуют ли какие-либо другие методы? Я пытался найти некоторые статистические методы, но не нашел их.

Вопрос:

Вам также может понравиться

Условно применять либо href, либо routerLink без *ngIf

Преобразование реального сложного типа в Exp / Acc

dynamodb обновит список карт