Группировка похожих файлов PDF в папках с помощью python

#python #pdf #grouping #data-extraction

#питон #PDF #группировка #извлечение данных

Вопрос:

У меня есть папка с кучей отсканированных счетов-фактур в формате PDF. Я хочу сгруппировать эти PDF-файлы в отдельные папки; отдельная папка для каждого имени поставщика.

(название поставщика обычно можно увидеть в верхней части страницы, как «заголовок письма», или иногда оно может быть ограничено меньшей областью вверху)

Я планирую написать .py сценарий для этой цели группировки, но я не уверен, какой подход будет работать.

Могу ли я использовать OpenCV обработку изображений для чтения PDF в виде изображений, а затем обучить модель классификации с помощью любого классификатора машинного обучения?

Есть ли какие-нибудь другие лучшие подходы, которые я мог бы опробовать?

Ответ №1:

Я бы начал с изучения синтаксического анализа pdf с помощью Tika. OpenCV кажется излишним для вашей проблемы.