Как навсегда удалить обрезанные данные в PDF с помощью Py2PDF?

#pdf #pypdf2

Вопрос:

У меня есть следующие строки кода:

 pip install pypdf2
from PyPDF2 import PdfFileReader, PdfFileWriter
    
file_name = 'medical.pdf'


reader = PdfFileReader(file_name, 'r')
    
for i in range(reader.getNumPages()):
        page = reader.getPage(i)
        page.cropBox.setLowerLeft((14.15367,110.6801))
        page.cropBox.setLowerRight((320,110.6801))
        page.cropBox.setUpperLeft((14.15367, 730.9205))
        page.cropBox.setUpperRight((320, 730.9205))
        writer.addPage(page)

outstream = open('cropped_medical.pdf', 'wb')
writer.write(outstream)
outstream.close()

import textract
text = textract.process('cropped_medical.pdf')

print(text)
 

По какой-то причине, когда я открываю новый обрезанный pdf-файл, текст из старого файла, который я вырезал, все еще отображается.

Похоже, что происходит то, что в памяти все еще доступен полный файл. Но когда я просматриваю PDF-файл, в нем отображается только обрезанная часть.

Удручающая правда заключается в том, что материал за пределами обрезанной области на самом деле не исчезает.

Как я могу заставить PDF буквально хранить только те координаты, которые я указал в коде?