#pdf #pypdf2
Вопрос:
У меня есть следующие строки кода:
pip install pypdf2
from PyPDF2 import PdfFileReader, PdfFileWriter
file_name = 'medical.pdf'
reader = PdfFileReader(file_name, 'r')
for i in range(reader.getNumPages()):
page = reader.getPage(i)
page.cropBox.setLowerLeft((14.15367,110.6801))
page.cropBox.setLowerRight((320,110.6801))
page.cropBox.setUpperLeft((14.15367, 730.9205))
page.cropBox.setUpperRight((320, 730.9205))
writer.addPage(page)
outstream = open('cropped_medical.pdf', 'wb')
writer.write(outstream)
outstream.close()
import textract
text = textract.process('cropped_medical.pdf')
print(text)
По какой-то причине, когда я открываю новый обрезанный pdf-файл, текст из старого файла, который я вырезал, все еще отображается.
Похоже, что происходит то, что в памяти все еще доступен полный файл. Но когда я просматриваю PDF-файл, в нем отображается только обрезанная часть.
Удручающая правда заключается в том, что материал за пределами обрезанной области на самом деле не исчезает.
Как я могу заставить PDF буквально хранить только те координаты, которые я указал в коде?