Python извлекает только часть таблицы из файла PDF

#python

Вопрос:

У меня есть PDF-файл, и я пытаюсь использовать tabula для чтения и извлечения таблицы. Но я получаю только несколько строк таблицы, извлеченных в CSV, а не всю таблицу целиком. Есть что-нибудь не так с файлом PDF?

любая помощь будет признательна!

 import tabula

from tabula import read_pdf

import pandas as pd

from tabula import read_pdf


tabula.convert_into(r"C:UserszjalilDesktopCDS_Analytical2.pdf", "CLD.csv", output_format="csv", pages='all') 
 

Комментарии:

1. Большинство PDF-файлов на самом деле не предназначены для аккуратного извлечения данных, поэтому подобные инструменты не всегда работают идеально.

Ответ №1:

Попробуйте это:

 df = tabula.read_pdf("C:UserszjalilDesktopCDS_Analytical2.pdf", encoding='utf-8', spreadsheet=True, pages='1-6041')
 

Затем сохраните этот фрейм данных в виде csv-файла:

 df.to_csv('CLD.csv', encoding='utf-8')
 

Комментарии:

1. для второй строки (df.to_csv..) Я получаю эту ошибку: объект «список» не имеет атрибута «to_csv»

2. df = pd.concat(pd.read_csv(fl) for fl in df) затем; df.to_csv('CLD.csv', encoding='utf-8')