Прочитайте таблицу pdf как структуру (не точную таблицу) в Python и извлеките ее в любой формат файла

#python #pdf #reader

#python #PDF #читатель

Вопрос:

У меня есть файл PDF, в котором страницы в середине заполнены измерениями. I выглядит как таблица, но не полностью выровнена по строкам. я хочу извлечь данные таким же образом, как они выглядят в файле csv или Excel.

Образец данных файла PDF:

 column1 column2 column3 column4
1       0.05    2.01    3.09   
2       5.05    4.01    6.03
3       7.01    8.02    1.00
  

В данных PDF нет выравнивания. Как будто это не отдельные строки usign, как в таблице. Итак, какой модуль мог бы использовать его для экспорта в Excel или csv?

Комментарии:

1. Используйте PyPDF2, вот ссылка, realpython.com/pdf-python . Распечатайте содержимое, а затем посмотрите, как вы можете его обработать. Если вы застряли, отправьте вопрос

2. Как этот онлайн-инструмент обрабатывает ваш файл (выберите сохранить как HTML, чтобы увидеть извлечение)?: pdftron.com/pdf-tools/pdf-table-extraction

3. Я нашел модуль github.com/tabulapdf/tabula что очень полезно и решает задачу

Ответ №1:

Вы можете использовать textract для достижения этой цели, но это также зависит от файла.

  1. http://textract.readthedocs.io/en/latest/
  2. https://github.com/deanmalmgren/textract

Он поддерживает множество типов файлов, включая PDF-файлы

 import textract
text = textract.process("path/to/file.pdf")
  

Комментарии:

1. я могу извлекать файлы из многих библиотек. Но формат данных pdf немного маловероятен, в нем нет текста, подобного абзацам, или таблицы, подобной строкам. Так что, если я извлеку его, он не будет выглядеть в виде таблицы