Таблица Python для таблицы без четких строк таблицы

#python #pandas #dataframe #tabula #tabula-py

Вопрос:

Недавно я попытался использовать tabula для анализа таблицы в формате pdf, которая не содержит строк в каждом поле таблицы.

Это приводит к созданию списка, который объединяет все различные поля в одно (пример вывода).

Как мне преобразовать эту единственную строку в фрейм данных, чтобы я мог манипулировать числами? Большое спасибо

Ответ №1:

В вопросе для проверки нет фиктивного файла, но если между столбцами таблицы pdf нет разделительной линии, и таблица объединяется в один столбец после извлечения из таблицы, попробуйте использовать параметр «столбцы» в tabula.read_pdf.

Согласно документации Tabula, этот параметр работает следующим образом:

 columns (list, optional) –
X coordinates of column boundaries.

Итак, если формат PDF одинаков для каждого PDF-файла, вы можете найти координаты X столбцов, от которых вы хотите отделить данные. Для этого вы можете использовать любой PDF-инструмент, такой как Adobe, или вы также можете нажать и попробовать.

Все еще сомневаетесь, пожалуйста, приложите фиктивный PDF-файл, чтобы можно было в него заглянуть.

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

Глобальная инструкция, похоже, не работает со скриптами на ipython3

Symfony 5.1 — Во время рендеринга шаблона было сгенерировано исключение («Контроллер для URI «/_fragment» не вызывается»)

Разложить массив, чтобы каждый 2-й элемент находился в другом массиве