Как извлечь текст из объединенного PDF-файла и преобразовать в текстовый файл?

#text-extraction

#извлечение текста

Вопрос:

когда я пытаюсь извлечь текст из объединенного PDF-файла и преобразовать его в текстовый файл с помощью PDFMiner, я сталкиваюсь с ошибкой PDFInterpreter: неизвестный оператор ‘QQ’, и вот код

     from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
    from pdfminer.layout import LAParams
    from pdfminer.converter import TextConverter
    from io import StringIO
    from pdfminer.pdfpage import PDFPage
    def get_pdf_file_content(path_to_pdf):
        resource_manager = PDFResourceManager(caching=True)
        out_text = StringIO()
        codec = 'utf-8'
        laParams = LAParams()
        text_converter = TextConverter(resource_manager, out_text, 
              laparams=laParams)
        fp = open(path_to_pdf, 'rb')
        interpreter = PDFPageInterpreter(resource_manager, text_converter)
        for page in PDFPage.get_pages(fp, pagenos=set(), maxpages=0, 
                    password="", caching=True, check_extractable=True):
        interpreter.process_page(page)
        text = out_text.getvalue()
        fp.close()
        text_converter.close()
        out_text.close()
        return text
    path_to_pdf = 'merged.pdf'
    print(get_pdf_file_content(path_to_pdf))
  

Ответ №1:

Поскольку я пользователь Windows, я не знаю PDFMiner, я не привык к оболочке, но вы можете попробовать этот онлайн-конвертер: https://pdftotext.com / Для меня это работает просто отлично.