извлечение текста из PDF с помощью типа python

#python #pdf #text

#python #PDF #текст

Вопрос:

введите описание изображения здесь

Всем привет, у меня есть этот образец файла PDF, у меня более 30 файлов, и каждый из них состоит в среднем из 10 страниц. как вы можете видеть, каждый абзац состоит из трех типов текстовых шрифтов и цвета, я хочу преобразовать файл PDF в файл cvs или файл xls, где каждый тип в отдельной строке.Кроме того, я хочу исключить выделенный текст желтым. что-то похожее на это : введите описание изображения здесь

Что python libries я должен использовать? любая ориентация или предложение будут полезны, спасибо

Комментарии:

1. Ваш вопрос не подходит для StackOverflow: «Ищу рекомендации по книгам, инструментам, библиотекам программного обеспечения и многому другому. Этот вопрос, скорее всего, приведет к ответам, основанным на мнении «.

Ответ №1:

Существует несколько библиотек. Я работал с https://pypi.org/project/pdfminer / раньше. Вероятно, это будет хорошо работать для вашего варианта использования.

 pdf2txt.py my_text.pdf
  

Комментарии:

1. спасибо за 4 ответа.. как насчет разделения текста по типу шрифта? как разделить их по типу?

Ответ №2:

Для работы с файлами PDF вы можете использовать PyPDF2

Комментарии:

1. как разделить текст по типу шрифта и игнорировать выделенный текст??