В поисках правильной структуры для внедрения корпоративной системы управления документами и анализа

#nlp #frameworks #document #analysis #enterprise

Вопрос:

Я уже потратил довольно много времени на обзоры литературы и поиск в Google, но пока не нашел ничего подходящего.

Задача состоит в том, чтобы внедрить гибкую и масштабируемую корпоративную систему управления и анализа документов. Я предполагаю, что это представляет собой прототипный вариант использования для многих предприятий.

Идеальная структура позволит работать локально (только Azure будет опцией) и предоставит платформу с низким уровнем кода, которая позволяет получать, помечать и регистрировать документы (PDF-файлы, файлы Word и Excel, другие текстовые файлы), индексировать и выполнять интеллектуальный поиск внутри и между документами и коллекциями документов, а также интерфейс для реализации задач NLP с помощью Python.

Кроме того, было бы полезно, если бы эта структура также позволяла моделировать метаданные о документах и бизнес-процессах, в которые они встроены (например, для проверки и проверки полноты набора необходимых документов, прежде чем начнется дальнейшая обработка).

Я думал о сочетании эластичного поиска и базы данных NoSQL, такой как Cassandra, но это не соответствовало бы требованиям к низкому коду.

Вы можете назвать меня наивным, но я предположил, что таких фреймворков должно быть триллионы, поскольку это такой типичный случай использования с точки зрения автоматизации бизнеса. Но я пока не нашел правильных рамок. Я надеюсь, что кто-нибудь сможет подсказать.

Краткие сведения:

Система управления документами и анализа, которая включает:

  • Готовность к работе на предприятии (локально или совместимо с Microsoft Azure)
  • Структура с низким уровнем кода
  • Крупномасштабное управление документами и анализ
  • Модульная и расширяемая с помощью моделей Python и NLP
  • Подключается к бизнес-логике (т. е. проверяет полноту коллекций документов)
  • Позволяет использовать метаданные и интеллектуальный поиск в документах и между ними