#python #python-3.x #pdf-scraping
Вопрос:
Я пытаюсь прочитать этот персидский pdf-файл, но результат не очень хорошо расшифрован. Я также попробовал utf-16 или utf-32, но никаких читаемых результатов получено не было. Я хочу, чтобы персидские даты были в таблице. Были опробованы другие библиотеки, но хороший текст извлечен не был.
urlpdf="https://www.codal.ir/Reports/DownloadFile.aspx?id=LG5QhAhMbfl2DrQQQaQQQ+kR9nMQ=="
response = requests.get(urlpdf, verify=False, timeout=5)
with io.BytesIO(response.content) as f:
#print(response.content)
pdf = PdfFileReader(f)
#print(pdf)
information = pdf.getDocumentInfo()
number_of_pages = pdf.getNumPages()
txt = f"""
Author: {information.author}
Creator: {information.creator}
Producer: {information.producer}
Subject: {information.subject}
Title: {information.title}
Number of pages: {number_of_pages}
"""
# Here the metadata of your pdf
print(txt)
# numpage for the number page
numpage=0
page = pdf.getPage(numpage)
page_content = page.extractText() "n"
# print the content in the page 20
g=open("extract.txt",'w',encoding='UTF-8',)
g.write(page_content)
g.close
print(page_content)
Комментарии:
1. Какие еще инструменты для очистки PDF вы использовали?
pdfminer
,camelot
, или еще один?2. Я пробовал pdfminer, но не camelot, не могли бы вы сделать это с помощью этих библиотек?