#python #pdf #reader
#python #PDF #читатель
Вопрос:
У меня есть файл PDF, в котором страницы в середине заполнены измерениями. I выглядит как таблица, но не полностью выровнена по строкам. я хочу извлечь данные таким же образом, как они выглядят в файле csv или Excel.
Образец данных файла PDF:
column1 column2 column3 column4
1 0.05 2.01 3.09
2 5.05 4.01 6.03
3 7.01 8.02 1.00
В данных PDF нет выравнивания. Как будто это не отдельные строки usign, как в таблице. Итак, какой модуль мог бы использовать его для экспорта в Excel или csv?
Комментарии:
1. Используйте PyPDF2, вот ссылка, realpython.com/pdf-python . Распечатайте содержимое, а затем посмотрите, как вы можете его обработать. Если вы застряли, отправьте вопрос
2. Как этот онлайн-инструмент обрабатывает ваш файл (выберите сохранить как HTML, чтобы увидеть извлечение)?: pdftron.com/pdf-tools/pdf-table-extraction
3. Я нашел модуль github.com/tabulapdf/tabula что очень полезно и решает задачу
Ответ №1:
Вы можете использовать textract для достижения этой цели, но это также зависит от файла.
Он поддерживает множество типов файлов, включая PDF-файлы
import textract
text = textract.process("path/to/file.pdf")
Комментарии:
1. я могу извлекать файлы из многих библиотек. Но формат данных pdf немного маловероятен, в нем нет текста, подобного абзацам, или таблицы, подобной строкам. Так что, если я извлеку его, он не будет выглядеть в виде таблицы