Camelot-py не обнаруживает таблицы с двумя строками

#python #python-camelot

Вопрос:

Очистка данных таблицы из a .PDF с использованием Camelot-py, и он не обнаруживает таблицы с 2/1 строками.

PDF, который я пытаюсь прочитать:
введите описание изображения здесь

Код, используемый для чтения таблиц:

 abc = camelot.read_pdf('IR-O-U-0436.pdf', pages="all")
 

Результат, который я получаю:
введите описание изображения здесь

На изображениях вы можете видеть, что спонсируемая таблица исследований читается в abc[15], а вторая часть таблицы сведений о консультационном проекте читается в abc[16], но Камелот пропускает первую часть таблицы сведений о консультационном проекте.

Любая информация была бы весьма признательна.

Комментарии:

1. Чтобы получить полезную помощь, пожалуйста, предоставьте оригинальный PDF-файл.

Ответ №1:

У меня были похожие таблицы в некоторых PDF-файлах, которые не были обнаружены camelot. Но после передачи параметра «line_scale» в функцию read_pdf я также смог обнаружить эти таблицы. Вы должны получить конкретное значение параметра «line_scale», которое даст вам все таблицы, независимо от номера строки. Для меня

линейный масштаб = 35

сработало отлично. Вы можете проверить это сами.