Можем ли мы конвертировать PDF-файлы в HTML с помощью C, C или Java (любого языка)?

#java #c #html #pdf

#java #c #HTML #PDF

Вопрос:

Мне нужно преобразовать PDF-файлы в HTML-файлы (платформа IOS), чтобы я мог аннотировать HTML-страницу с помощью Javascript. Я добился некоторого успеха в аннотировании HTML-страниц, поэтому, если я смогу конвертировать PDF в HTML, я смогу выполнить свою задачу. Как я могу выполнить преобразование?

Комментарии:

1. Пожалуйста, переформулируйте вопрос и будьте более конкретными. На какой платформе вы разрабатываете? Какой язык вы используете? Вы искали похожие вопросы, прежде чем задавать?

2. google.com/search ? q= pdf в html

Ответ №1:

Преобразование ИЗ PDF, как правило, очень сложно (в лучшем случае).

PDF содержит инструкции по рисованию. «Строка отсюда туда», «эти символы в этих координатах». Обычно нет информации о логическом значении этих строк, символов и изображений, хотя термин «Структура документа» становится все более распространенным.

Без «структуры документа» и «помеченного содержимого» очень сложно перейти от «кучи строк и символов» к «таблице с этой информацией в этих столбцах и строках».

Не невозможно, просто очень сложно.

И люди, которые работали над этой проблемой, не все заинтересованы в том, чтобы делиться своим кодом бесплатно.

Комментарии:

1. bisqwit.iki.fi/source/pdf2simplehtml.html -> Вот некоторый исходный код для преобразования pdf в html. В html будет преобразован только простой текст.

2. И этот код поставляется с кучей оговорок (и я бы предположил, что coupd использует еще несколько). Я придерживаюсь своей оценки.

3. Привет, Марк, используя встроенную поддержку Apple API, я теперь могу эффективно выделять строку поиска PDF. Не могли бы вы, пожалуйста, подсказать мне, как получить выделенный (аннотированный) текст в формате PDF? Я знаю, что очень сложно определить местоположение каждого символа на странице PDF, чтобы я мог отобразить. Спасибо!! Naveen

4. Сообщает ли вам Apple API, куда он помещает свои основные моменты? Говорит ли он вам, как он добавляет эти основные моменты? Можете ли вы показать нам PDF-файл, содержащий указанные основные моменты, чтобы мы могли сами ответить на второй вопрос?

Ответ №2:

Конвертировать любой pdf будет сложно, некоторые из них слишком сложны для HTML.

Взгляните на libpoppler, в нем уже есть функции pdf2html, и это открытый исходный код, вы всегда можете расширить его, чтобы он соответствовал вашим требованиям.

Комментарии:

1. Не могли бы вы, пожалуйста, дать мне ссылку на libpoppler.

2. Могу ли я интегрировать код libpoppler в мою программу для IOS? Я загрузил этот код в свой iMac. Но я понятия не имею, как использовать это в моем проекте: (

3. Попробуйте скомпилировать его и позаботьтесь ‘pdftohtml.cc ‘. Я не знаю, если вы можете интегрировать poppler в свою программу, она находится под лицензией GPL.