Использование Python для анализа файлов PDF

#pdf #hash #output

#PDF #хэш #вывод

Вопрос:

Я написал код, который обнаруживает вредоносные файлы pdf. что мне нужно сделать, так это следующее:

каждый сканируемый PDF-файл я хочу сохранить его хэш-значение в базе данных хэшей, а выходные данные будут сохранены в выходном контейнере, поэтому, если у меня есть другой PDF-файл для сканирования, я проверю его хэш-значение, если оно существует в базе данных хэшей, затем я распечатаю выходные данные из выходного контейнера. но если значение хэша не существует, оно добавляется в базу данных хэшей, а выходные данные будут добавлены в выходной контейнер.

как я мог это сделать и как связать значение хэша с выводом в выходном контейнере

Ответ №1:

О каких вредоносных документах вы беспокоитесь? Поврежденные файлы или PDF-файлы с вирусом в нем?

Для работы с pdf на python вы можете использовать pyPdf

Затем вы можете открыть файл следующим образом:

 from pyPdf import PdfFileReader
my_doc = PdfFileReader(file("myfile.pdf", "rb"))
  

Таким образом, вы проверите, является ли это допустимым файлом.

Что касается ссылки, она может быть создана в самой базе данных?

Комментарии:

1. Я написал код, который выполняет сканирование, но мне нужно следующее