#text-extraction
#извлечение текста
Вопрос:
когда я пытаюсь извлечь текст из объединенного PDF-файла и преобразовать его в текстовый файл с помощью PDFMiner, я сталкиваюсь с ошибкой PDFInterpreter: неизвестный оператор ‘QQ’, и вот код
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import TextConverter
from io import StringIO
from pdfminer.pdfpage import PDFPage
def get_pdf_file_content(path_to_pdf):
resource_manager = PDFResourceManager(caching=True)
out_text = StringIO()
codec = 'utf-8'
laParams = LAParams()
text_converter = TextConverter(resource_manager, out_text,
laparams=laParams)
fp = open(path_to_pdf, 'rb')
interpreter = PDFPageInterpreter(resource_manager, text_converter)
for page in PDFPage.get_pages(fp, pagenos=set(), maxpages=0,
password="", caching=True, check_extractable=True):
interpreter.process_page(page)
text = out_text.getvalue()
fp.close()
text_converter.close()
out_text.close()
return text
path_to_pdf = 'merged.pdf'
print(get_pdf_file_content(path_to_pdf))
Ответ №1:
Поскольку я пользователь Windows, я не знаю PDFMiner, я не привык к оболочке, но вы можете попробовать этот онлайн-конвертер: https://pdftotext.com / Для меня это работает просто отлично.