Преобразование многостраничного PDF-файла в одностраничный PDF-файл и извлечение изображения

#php #linux

#php #linux

Вопрос:

У меня есть многостраничный PDF-файл, содержащий информацию, которую мне нужно проанализировать. Информация и изображение ограничены отдельной страницей. Мне нужно извлечь текст и изображение из PDF.

Я использую CentOS и PHP.

Моя попытка:

Изначально я пытался использовать комбинацию pdftotext и imagemagick. Я преобразовал PDF-файл в изображение, и это фактически разделило страницы на их собственные изображения. К сожалению, качество изображения на странице получилось очень низким.

Моя цель:

Мне нужно разделить PDF-файл на несколько PDF-файлов, по одному на страницу. Затем мне нужно извлечь изображение с этой страницы с максимально возможным качеством.

Спасибо.

Комментарии:

1. Можете ли вы установить новое программное обеспечение, например pdftk ?

2. У меня есть root-доступ, да.

Ответ №1:

imagemagick не подходит для выполнения этой задачи

когда вам нужно извлечь изображения из pdf в их исходном размере (т. Е. Наилучшем, поскольку любое другое разрешение меньше или больше исходного), вы должны использовать

PDF-изображения

http://www.foolabs.com/xpdf/download.html

(статические двоичные файлы доступны, если вы не можете скомпилировать из исходного кода)

синтаксис:

 pdfimages file.pdf image-root
  

полученное изображение будет иметь расширение .ppm , если вы не добавите переключатель -j для вывода изображений в формате jpeg

Ответ №2:

pdfseparate для разделения многостраничного.pdf на 1.pdf 2.pdf … конвертировать 1.pdf 1.png …

pdfseparate (часть poppler) для разделения многостраничного.pdf на 1.pdf 2.pdf …

 pdfseparate multi-page.pdf ./single-pages/%d.pdf
  
  • извлекает все страницы из многостраничного.pdf
  • и сохраняет их как одностраничные PDF-файлы ( %d переменная для номера страницы)

mogrify (часть ImageMagick) для пакетного преобразования всех одностраничных PDF-файлов в PNG с желаемым разрешением (в DPI)

 mogrify ./single-pages/*.pdf -density 300 -format png