Camelot-py не обнаруживает таблицы с двумя строками

#python #python-camelot

Вопрос:

Очистка данных таблицы из a .PDF с использованием Camelot-py, и он не обнаруживает таблицы с 2/1 строками.

PDF, который я пытаюсь прочитать:

Код, используемый для чтения таблиц:

 abc = camelot.read_pdf('IR-O-U-0436.pdf', pages="all")

Результат, который я получаю:

На изображениях вы можете видеть, что спонсируемая таблица исследований читается в abc[15], а вторая часть таблицы сведений о консультационном проекте читается в abc[16], но Камелот пропускает первую часть таблицы сведений о консультационном проекте.

Любая информация была бы весьма признательна.

Ответ №1:

У меня были похожие таблицы в некоторых PDF-файлах, которые не были обнаружены camelot. Но после передачи параметра «line_scale» в функцию read_pdf я также смог обнаружить эти таблицы. Вы должны получить конкретное значение параметра «line_scale», которое даст вам все таблицы, независимо от номера строки. Для меня

линейный масштаб = 35

сработало отлично. Вы можете проверить это сами.

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

Ошибка типа: _append_dispatcher()

получить массив Json из URL с помощью java

joblib: не удается загрузить сброшенный файл joblib из другого каталога