#python #pdf #nlp #data-science #ocr
Вопрос:
Я использую pdfminer.six для чтения и извлечения данных из PDF-файлов на моем терминале python. Я наткнулся на один вопрос и до сих пор не нашел на него почти никакого ответа. Я читаю/извлекаю около 20 файлов pdf и извлекаю текстовые данные, но как мне убедиться, что все текстовые данные извлечены правильно? Один из способов-OCR(оптическое распознавание символов), либо тессеракт, либо Microsoft, либо какой-то другой, но все равно они не очень точны. Существуют ли какие-либо другие методы? Я пытался найти некоторые статистические методы, но не нашел их.