Разбор определенного текста в формате PDF

#php #parsing #pdf

#php #синтаксический анализ #PDF

Вопрос:

привет, я работаю над приложением, которое анализирует данные PDF для просмотра на мобильных устройствах, я ищу способ сканировать PDF-файл в поисках определенного текста и получать координаты x amp; y этого текстового блока. Это вообще возможно. Я работаю на сервере Linux с php, но я гибок в использовании любых средств, чтобы заставить это работать. Спасибо.

Ответ №1:

Коммерческие опции:

  • TET (Text Extraction Toolkit) SDK от http://www.pdflib.com; Для тестирования механизма доступен плагин Acrobat
  • pdfToolbox SDK от http://www.callassoftware.com ; интерактивная версия для настольных компьютеров доступна для тестирования
  • если вы готовы еще немного поработать с кодированием самостоятельно: библиотека Adobe PDF, SDK, доступная через Datalogics

Все они довольно зрелые, TET очень специфичен для извлечения текста, pdfToolbox — это SDK общего назначения для анализа и манипулирования PDF-файлами (но имеет специальную функцию для извлечения текста с координатами текста на странице), а Adobe PDF Library — скорее инструмент разработки общего назначения (предлагает множество низкоуровневых функций, но должен быть написан код, который находит текст / слова / символы и извлекает координаты).

Отказ от ответственности: я работаю в callas software, мой взгляд на pdfToolbox может быть предвзятым.