#python #pdf #text
#python #PDF #текст
Вопрос:
Всем привет, у меня есть этот образец файла PDF, у меня более 30 файлов, и каждый из них состоит в среднем из 10 страниц. как вы можете видеть, каждый абзац состоит из трех типов текстовых шрифтов и цвета, я хочу преобразовать файл PDF в файл cvs или файл xls, где каждый тип в отдельной строке.Кроме того, я хочу исключить выделенный текст желтым. что-то похожее на это :
Что python libries
я должен использовать? любая ориентация или предложение будут полезны, спасибо
Комментарии:
1. Ваш вопрос не подходит для StackOverflow: «Ищу рекомендации по книгам, инструментам, библиотекам программного обеспечения и многому другому. Этот вопрос, скорее всего, приведет к ответам, основанным на мнении «.
Ответ №1:
Существует несколько библиотек. Я работал с https://pypi.org/project/pdfminer / раньше. Вероятно, это будет хорошо работать для вашего варианта использования.
pdf2txt.py my_text.pdf
Комментарии:
1. спасибо за 4 ответа.. как насчет разделения текста по типу шрифта? как разделить их по типу?
Ответ №2:
Для работы с файлами PDF вы можете использовать PyPDF2
Комментарии:
1. как разделить текст по типу шрифта и игнорировать выделенный текст??