Простота редактирования / очистки НЕ ОЧЕНЬ важного текста в файле PDF

#python #nlp #spacy

#python #nlp #spacy

Вопрос:

Я хочу использовать Spacy для обнаружения важной информации в файле PDF и редактирования / очистки другого НЕ СТОЛЬ важного текста. Но модели Spacy ожидают текстовые данные в качестве входных данных, как показано ниже,

 nlp = spacy.load('en_core_web_sm')
doc = nlp(u'This is the test input.')
  

Как я должен использовать Spacy для выполнения операций NLP с использованием файла PDF в качестве входных данных и редактирования / очистки некоторого текста в файле PDF?

Комментарии:

1. Spacy не может читать PDF-файлы изначально, вам придется использовать другую библиотеку для чтения и записи PDF.

2. Вы можете проверить это для обработки данных PDF.

3. Я попытался извлечь текст с помощью pypdf2. Теперь я хочу отредактировать из него некоторую информацию и записать ее обратно в файл PDF.