#python #pandas #dataframe #tabula #tabula-py
Вопрос:
Недавно я попытался использовать tabula для анализа таблицы в формате pdf, которая не содержит строк в каждом поле таблицы.
Это приводит к созданию списка, который объединяет все различные поля в одно (пример вывода).
Как мне преобразовать эту единственную строку в фрейм данных, чтобы я мог манипулировать числами? Большое спасибо
Комментарии:
1. Это не похоже на одну строку.
read_pdf()
возвращает список кадров данных. Попробуйprint(type(dfs[0]))
Ответ №1:
В вопросе для проверки нет фиктивного файла, но если между столбцами таблицы pdf нет разделительной линии, и таблица объединяется в один столбец после извлечения из таблицы, попробуйте использовать параметр «столбцы» в tabula.read_pdf.
Согласно документации Tabula, этот параметр работает следующим образом:
columns (list, optional) –
X coordinates of column boundaries.
Итак, если формат PDF одинаков для каждого PDF-файла, вы можете найти координаты X столбцов, от которых вы хотите отделить данные. Для этого вы можете использовать любой PDF-инструмент, такой как Adobe, или вы также можете нажать и попробовать.
Все еще сомневаетесь, пожалуйста, приложите фиктивный PDF-файл, чтобы можно было в него заглянуть.