Таблица Python для таблицы без четких строк таблицы

#python #pandas #dataframe #tabula #tabula-py

Вопрос:

Недавно я попытался использовать tabula для анализа таблицы в формате pdf, которая не содержит строк в каждом поле таблицы.

Это приводит к созданию списка, который объединяет все различные поля в одно (пример вывода).

Как мне преобразовать эту единственную строку в фрейм данных, чтобы я мог манипулировать числами? Большое спасибо

Комментарии:

1. Это не похоже на одну строку. read_pdf() возвращает список кадров данных. Попробуй print(type(dfs[0]))

Ответ №1:

В вопросе для проверки нет фиктивного файла, но если между столбцами таблицы pdf нет разделительной линии, и таблица объединяется в один столбец после извлечения из таблицы, попробуйте использовать параметр «столбцы» в tabula.read_pdf.

Согласно документации Tabula, этот параметр работает следующим образом:

 columns (list, optional) –
X coordinates of column boundaries.
 

Итак, если формат PDF одинаков для каждого PDF-файла, вы можете найти координаты X столбцов, от которых вы хотите отделить данные. Для этого вы можете использовать любой PDF-инструмент, такой как Adobe, или вы также можете нажать и попробовать.

Все еще сомневаетесь, пожалуйста, приложите фиктивный PDF-файл, чтобы можно было в него заглянуть.