#php #parsing #pdf
#php #синтаксический анализ #PDF
Вопрос:
привет, я работаю над приложением, которое анализирует данные PDF для просмотра на мобильных устройствах, я ищу способ сканировать PDF-файл в поисках определенного текста и получать координаты x amp; y этого текстового блока. Это вообще возможно. Я работаю на сервере Linux с php, но я гибок в использовании любых средств, чтобы заставить это работать. Спасибо.
Ответ №1:
Коммерческие опции:
- TET (Text Extraction Toolkit) SDK от http://www.pdflib.com; Для тестирования механизма доступен плагин Acrobat
- pdfToolbox SDK от http://www.callassoftware.com ; интерактивная версия для настольных компьютеров доступна для тестирования
- если вы готовы еще немного поработать с кодированием самостоятельно: библиотека Adobe PDF, SDK, доступная через Datalogics
Все они довольно зрелые, TET очень специфичен для извлечения текста, pdfToolbox — это SDK общего назначения для анализа и манипулирования PDF-файлами (но имеет специальную функцию для извлечения текста с координатами текста на странице), а Adobe PDF Library — скорее инструмент разработки общего назначения (предлагает множество низкоуровневых функций, но должен быть написан код, который находит текст / слова / символы и извлекает координаты).
Отказ от ответственности: я работаю в callas software, мой взгляд на pdfToolbox может быть предвзятым.