#pdf #hash #output
#PDF #хэш #вывод
Вопрос:
Я написал код, который обнаруживает вредоносные файлы pdf. что мне нужно сделать, так это следующее:
каждый сканируемый PDF-файл я хочу сохранить его хэш-значение в базе данных хэшей, а выходные данные будут сохранены в выходном контейнере, поэтому, если у меня есть другой PDF-файл для сканирования, я проверю его хэш-значение, если оно существует в базе данных хэшей, затем я распечатаю выходные данные из выходного контейнера. но если значение хэша не существует, оно добавляется в базу данных хэшей, а выходные данные будут добавлены в выходной контейнер.
как я мог это сделать и как связать значение хэша с выводом в выходном контейнере
Ответ №1:
О каких вредоносных документах вы беспокоитесь? Поврежденные файлы или PDF-файлы с вирусом в нем?
Для работы с pdf на python вы можете использовать pyPdf
Затем вы можете открыть файл следующим образом:
from pyPdf import PdfFileReader
my_doc = PdfFileReader(file("myfile.pdf", "rb"))
Таким образом, вы проверите, является ли это допустимым файлом.
Что касается ссылки, она может быть создана в самой базе данных?
Комментарии:
1. Я написал код, который выполняет сканирование, но мне нужно следующее