Использование Python для анализа файлов PDF

#pdf #hash #output

#PDF #хэш #вывод

Вопрос:

Я написал код, который обнаруживает вредоносные файлы pdf. что мне нужно сделать, так это следующее:

каждый сканируемый PDF-файл я хочу сохранить его хэш-значение в базе данных хэшей, а выходные данные будут сохранены в выходном контейнере, поэтому, если у меня есть другой PDF-файл для сканирования, я проверю его хэш-значение, если оно существует в базе данных хэшей, затем я распечатаю выходные данные из выходного контейнера. но если значение хэша не существует, оно добавляется в базу данных хэшей, а выходные данные будут добавлены в выходной контейнер.

как я мог это сделать и как связать значение хэша с выводом в выходном контейнере

Ответ №1:

О каких вредоносных документах вы беспокоитесь? Поврежденные файлы или PDF-файлы с вирусом в нем?

Для работы с pdf на python вы можете использовать pyPdf

Затем вы можете открыть файл следующим образом:

 from pyPdf import PdfFileReader
my_doc = PdfFileReader(file("myfile.pdf", "rb"))

Таким образом, вы проверите, является ли это допустимым файлом.

Что касается ссылки, она может быть создана в самой базе данных?

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

Диаграмма взаимосвязи сущностей из пар имен, Redshft

Java Spring Boot не найден компонент, использующий аннотацию @Bean для методов по умолчанию

проект java не может выполняться по порядку в ИДЕЕ IntelliJ