#python #pdf #grouping #data-extraction
#питон #PDF #группировка #извлечение данных
Вопрос:
У меня есть папка с кучей отсканированных счетов-фактур в формате PDF. Я хочу сгруппировать эти PDF-файлы в отдельные папки; отдельная папка для каждого имени поставщика.
(название поставщика обычно можно увидеть в верхней части страницы, как «заголовок письма», или иногда оно может быть ограничено меньшей областью вверху)
Я планирую написать .py
сценарий для этой цели группировки, но я не уверен, какой подход будет работать.
Могу ли я использовать OpenCV
обработку изображений для чтения PDF в виде изображений, а затем обучить модель классификации с помощью любого классификатора машинного обучения?
Есть ли какие-нибудь другие лучшие подходы, которые я мог бы опробовать?
Ответ №1:
Я бы начал с изучения синтаксического анализа pdf с помощью Tika. OpenCV кажется излишним для вашей проблемы.