Как извлечь таблицу для pdf с помощью Java?

#java #pdf #pdfbox #pdftotext #camelot-php-tools

Вопрос:

Я пытаюсь извлечь табличные данные структурированным образом в виде таблицы с помощью Java. Я использую pdfbox и tabula в течение последних двух лет. Но проблема в том, что pdfbox возвращает все данные в pdf в виде отсортированного или несортированного текста, и табула иногда обнаруживает таблицу, у которой есть идеальные границы и не удалось повторно согласовать таблицы без границ.

Пожалуйста, помогите мне с решением для извлечения таблицы из pdf в структурированном формате с использованием Java, кроме использования pdfbox и api tabula.

Комментарии:

1. Пожалуйста, предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.

2. SDK для обработки форм Java LEADTOOLS можно использовать для извлечения табличной информации из структурированных форм. Для распознавания используется шаблон из пустой формы с полями, определенными для извлечения. Например, класс TableFormField может быть настроен для разных таблиц с помощью свойства Rules с соответствующим значением TableRules. Образец Java можно найти здесь , и доступна бесплатная оценка.