#python #nlp #spacy
#python #nlp #spacy
Вопрос:
Я хочу использовать Spacy для обнаружения важной информации в файле PDF и редактирования / очистки другого НЕ СТОЛЬ важного текста. Но модели Spacy ожидают текстовые данные в качестве входных данных, как показано ниже,
nlp = spacy.load('en_core_web_sm')
doc = nlp(u'This is the test input.')
Как я должен использовать Spacy для выполнения операций NLP с использованием файла PDF в качестве входных данных и редактирования / очистки некоторого текста в файле PDF?
Комментарии:
1. Spacy не может читать PDF-файлы изначально, вам придется использовать другую библиотеку для чтения и записи PDF.
2. Вы можете проверить это для обработки данных PDF.
3. Я попытался извлечь текст с помощью pypdf2. Теперь я хочу отредактировать из него некоторую информацию и записать ее обратно в файл PDF.