извлечение данных из pdf и составление списка списков

#pandas #list #pdf

Вопрос:

Мне нужна помощь в извлечении и обработке данных из pdf. pdf, о котором идет речь ниже, ссылка: https://www.england.nhs.uk/wp-content/uploads/2018/04/national-tables-5-mgml-v3.pdf скриншот
национального диапазона доз

Я хочу создать список списков с элементами в столбцах 1 и 3, как этот: оксалиранж = ([5.75, 6.24], [6.25, 6.74], [6.75, 7.24],…

Я знаю, как извлечь pdf в виде таблицы Excel с помощью Camelot и pandas, а затем я вручную составляю список, поэтому я хотел бы знать, как автоматизировать это с помощью python и pandas (или любой другой библиотеки python). Я рад, что мне указали на самый актуальный веб-сайт, чтобы я мог сам найти информацию. Заранее спасибо.

Ответ №1:

Вы можете использовать библиотеку xlrd на python для чтения файла excel .Вот ссылка на их документацию, однако она будет ограничена только файлами. xls (старый excel).

https://xlrd.readthedocs.io/en/latest/

но вот список альтернативных библиотек, связанных с excel

https://www.python-excel.org/

Комментарии:

1. Спасибо, я поиграю, посмотрим, какая из них сработает лучше.