#nlp #frameworks #document #analysis #enterprise
Вопрос:
Я уже потратил довольно много времени на обзоры литературы и поиск в Google, но пока не нашел ничего подходящего.
Задача состоит в том, чтобы внедрить гибкую и масштабируемую корпоративную систему управления и анализа документов. Я предполагаю, что это представляет собой прототипный вариант использования для многих предприятий.
Идеальная структура позволит работать локально (только Azure будет опцией) и предоставит платформу с низким уровнем кода, которая позволяет получать, помечать и регистрировать документы (PDF-файлы, файлы Word и Excel, другие текстовые файлы), индексировать и выполнять интеллектуальный поиск внутри и между документами и коллекциями документов, а также интерфейс для реализации задач NLP с помощью Python.
Кроме того, было бы полезно, если бы эта структура также позволяла моделировать метаданные о документах и бизнес-процессах, в которые они встроены (например, для проверки и проверки полноты набора необходимых документов, прежде чем начнется дальнейшая обработка).
Я думал о сочетании эластичного поиска и базы данных NoSQL, такой как Cassandra, но это не соответствовало бы требованиям к низкому коду.
Вы можете назвать меня наивным, но я предположил, что таких фреймворков должно быть триллионы, поскольку это такой типичный случай использования с точки зрения автоматизации бизнеса. Но я пока не нашел правильных рамок. Я надеюсь, что кто-нибудь сможет подсказать.
Краткие сведения:
Система управления документами и анализа, которая включает:
- Готовность к работе на предприятии (локально или совместимо с Microsoft Azure)
- Структура с низким уровнем кода
- Крупномасштабное управление документами и анализ
- Модульная и расширяемая с помощью моделей Python и NLP
- Подключается к бизнес-логике (т. е. проверяет полноту коллекций документов)
- Позволяет использовать метаданные и интеллектуальный поиск в документах и между ними