#python #pdf #data-science #pypdf2
Вопрос:
У меня возникли проблемы с пониманием извлечения PDF-данных. Я создавал форму PDF, объединив существующий PDF-файл с PDF-файлом, который содержит только текстовые поля, необходимые в качестве водяного знака. Создание текстовых полей и объединение осуществляется с помощью PyPDF2.
Теперь я пытаюсь извлечь данные, введенные в текстовое поле. Документация по этому процессу в официальных документах PyPDF2 довольно примитивна, и в Интернете не так много учебных пособий или прямых решений, кроме получения полного содержимого страницы.
Есть ли какой-либо способ получить содержимое только текстовых полей? как мне адресовать один элемент? Я уже пробовал метод getFormTextFields (), но он просто выдает «Нет», хотя понятно, почему это так.
Я также использовал средство просмотра структуры PDF CosEdit, чтобы каким-то образом получить необходимую мне информацию, то, что я нашел, показано на скриншоте ниже. То, что вы видите там, является (по крайней мере, я так думаю) тем «элементом», который мне нужен. Содержимое текстового поля отображается в ключе «V» (выделено красным цветом). Я не знаю, как продолжить, так как не знаю, как обратиться к этому конкретному элементу.
CosEdit PDF-Расположение элементов
Надеюсь, вы сможете помочь!