Python извлекает только часть таблицы из файла PDF

#python

Вопрос:

У меня есть PDF-файл, и я пытаюсь использовать tabula для чтения и извлечения таблицы. Но я получаю только несколько строк таблицы, извлеченных в CSV, а не всю таблицу целиком. Есть что-нибудь не так с файлом PDF?

любая помощь будет признательна!

 import tabula

from tabula import read_pdf

import pandas as pd

from tabula import read_pdf


tabula.convert_into(r"C:UserszjalilDesktopCDS_Analytical2.pdf", "CLD.csv", output_format="csv", pages='all')

Ответ №1:

Попробуйте это:

 df = tabula.read_pdf("C:UserszjalilDesktopCDS_Analytical2.pdf", encoding='utf-8', spreadsheet=True, pages='1-6041')

Затем сохраните этот фрейм данных в виде csv-файла:

 df.to_csv('CLD.csv', encoding='utf-8')

Python извлекает только часть таблицы из файла PDF

Вопрос:

Комментарии:

Ответ №1:

Комментарии:

Вопрос:

Комментарии:

Ответ №1:

Комментарии:

Вам также может понравиться

Физика пули — «склейте» грани вместе

Поиск объектов SQL, которые ссылаются на столбцы таблицы, которые не существуют

Ядро Oops 17 для ARM