#php #linux
#php #linux
Вопрос:
У меня есть многостраничный PDF-файл, содержащий информацию, которую мне нужно проанализировать. Информация и изображение ограничены отдельной страницей. Мне нужно извлечь текст и изображение из PDF.
Я использую CentOS и PHP.
Моя попытка:
Изначально я пытался использовать комбинацию pdftotext и imagemagick. Я преобразовал PDF-файл в изображение, и это фактически разделило страницы на их собственные изображения. К сожалению, качество изображения на странице получилось очень низким.
Моя цель:
Мне нужно разделить PDF-файл на несколько PDF-файлов, по одному на страницу. Затем мне нужно извлечь изображение с этой страницы с максимально возможным качеством.
Спасибо.
Комментарии:
1. Можете ли вы установить новое программное обеспечение, например
pdftk
?2. У меня есть root-доступ, да.
Ответ №1:
imagemagick не подходит для выполнения этой задачи
когда вам нужно извлечь изображения из pdf в их исходном размере (т. Е. Наилучшем, поскольку любое другое разрешение меньше или больше исходного), вы должны использовать
PDF-изображения
http://www.foolabs.com/xpdf/download.html
(статические двоичные файлы доступны, если вы не можете скомпилировать из исходного кода)
синтаксис:
pdfimages file.pdf image-root
полученное изображение будет иметь расширение .ppm , если вы не добавите переключатель -j для вывода изображений в формате jpeg
Ответ №2:
pdfseparate для разделения многостраничного.pdf на 1.pdf 2.pdf … конвертировать 1.pdf 1.png …
pdfseparate (часть poppler) для разделения многостраничного.pdf на 1.pdf 2.pdf …
pdfseparate multi-page.pdf ./single-pages/%d.pdf
- извлекает все страницы из многостраничного.pdf
- и сохраняет их как одностраничные PDF-файлы (
%d
переменная для номера страницы)
mogrify (часть ImageMagick) для пакетного преобразования всех одностраничных PDF-файлов в PNG с желаемым разрешением (в DPI)
mogrify ./single-pages/*.pdf -density 300 -format png