Получение текста из PDF-файла на Java без использования какой-либо библиотеки, отличной от API Java по умолчанию

#java #pdf

Вопрос:

Я знаю, что получение текста из pdf-файла относительно легко, когда мы используем некоторые библиотеки, например pdfbox. Тем не менее, есть ли какое-либо руководство по выполнению этой задачи только с помощью API Java по умолчанию? Что-то похожее на DOM API, когда мы анализируем xml — файл, но для pdf-файла.

Комментарии:

1. Почему? Вы только в конечном итоге переопределите PDFBox. Это нетривиальная задача. Не изобретайте велосипед заново.

2. @user207421 Обычно удобно использовать сторонние библиотеки. Однако в некоторых обстоятельствах, например, мне нужно только получить текст из pdf-файла, мне не нужны другие API PDFBox. Почему я должен импортировать всю библиотеку PDFBox ?

3. Чтобы не пришлось ничего из этого переписывать. Это плата, и PDFBox бесплатен. И я говорю вам, что это будет стоить больших денег и времени. Это тоже не твоя работа-тратить время впустую.

4. Полностью согласен с @user207421. Хотя я полностью поддерживаю подход, позволяющий не добавлять в проект ненужные библиотеки ( в частности, я ненавижу, когда что-то вроде apache-commons-* добавляется только для сохранения одной строки кода в одном месте), разбор PDF-довольно сложная операция, которую гораздо лучше делегировать известной библиотеке

5. @Alexandrbereziuk, Может быть, я сделаю это с помощью myseft и опубликую это в качестве ответа. Надеюсь, это будет полезно для тех, кто ищет руководства, как я в данный момент.