Неструктурированные данные, не основанные на шаблонах структурированных данных

#nlp #computer-vision #data-extraction

Вопрос:

Я работаю над проектом, в котором моя цель-извлечь данные из pdf, которые не соответствуют шаблону (т. е. неструктурированные данные, не основанные на шаблонах). Моя часть ORC хорошо работает, и теперь я пытаюсь извлечь данные из необработанного текста. Во время моего исследования я в основном видел извлечение данных из неструктурированных данных на основе шаблонов.

Единственное, что я вижу на данный момент, что могло бы сработать, — это использовать регулярное выражение для примера, чтобы найти дату, однако я действительно не знаю, с чем связана дата.

Я не ограничиваюсь НЛП, я также могу использовать компьютерное зрение в pdf или другие методы.

Любая информация или решения приветствуются.