#nlp #computer-vision #data-extraction
Вопрос:
Я работаю над проектом, в котором моя цель-извлечь данные из pdf, которые не соответствуют шаблону (т. е. неструктурированные данные, не основанные на шаблонах). Моя часть ORC хорошо работает, и теперь я пытаюсь извлечь данные из необработанного текста. Во время моего исследования я в основном видел извлечение данных из неструктурированных данных на основе шаблонов.
Единственное, что я вижу на данный момент, что могло бы сработать, — это использовать регулярное выражение для примера, чтобы найти дату, однако я действительно не знаю, с чем связана дата.
Я не ограничиваюсь НЛП, я также могу использовать компьютерное зрение в pdf или другие методы.
Любая информация или решения приветствуются.