#python
Вопрос:
У меня есть PDF-файл, и я пытаюсь использовать tabula для чтения и извлечения таблицы. Но я получаю только несколько строк таблицы, извлеченных в CSV, а не всю таблицу целиком. Есть что-нибудь не так с файлом PDF?
любая помощь будет признательна!
import tabula
from tabula import read_pdf
import pandas as pd
from tabula import read_pdf
tabula.convert_into(r"C:UserszjalilDesktopCDS_Analytical2.pdf", "CLD.csv", output_format="csv", pages='all')
Комментарии:
1. Большинство PDF-файлов на самом деле не предназначены для аккуратного извлечения данных, поэтому подобные инструменты не всегда работают идеально.
Ответ №1:
Попробуйте это:
df = tabula.read_pdf("C:UserszjalilDesktopCDS_Analytical2.pdf", encoding='utf-8', spreadsheet=True, pages='1-6041')
Затем сохраните этот фрейм данных в виде csv-файла:
df.to_csv('CLD.csv', encoding='utf-8')
Комментарии:
1. для второй строки (df.to_csv..) Я получаю эту ошибку: объект «список» не имеет атрибута «to_csv»
2.
df = pd.concat(pd.read_csv(fl) for fl in df)
затем;df.to_csv('CLD.csv', encoding='utf-8')