Как выделить пользовательские извлечения с помощью crowd-textract-analyze-document от a2i?

#amazon-web-services #amazon-sagemaker #amazon-textract #amazon-comprehend

#amazon-web-services #amazon-sagemaker #amazon-textract #amazon-понять

Вопрос:

Я хотел бы создать цикл просмотра изображений, прошедших распознавание с помощью Amazon Textract, и извлечение объектов с помощью Amazon Comprehend.

Мой процесс:

  1. отправьте изображение в Textract для извлечения текста
  2. отправьте текст для понимания, чтобы извлечь объекты
  3. найдите идентификаторы блоков в выводе Textract объектов, извлеченных с помощью Comprehend
  4. добавьте новые блоки типа KEY_VALUE_SET в вывод textract в формате JSON в соответствии с документами
  5. создайте пользовательскую задачу с crowd-textract-analyze-document элементом в шаблоне и передайте ей измененный вывод textract

Что не работает в этом процессе, так это шаг 5. Мои пользовательские объекты отображаются неправильно. Под «не работает» я подразумеваю, что объекты не выделяются на изображении, когда я нажимаю на них на боковой панели. В консоли браузера нет ошибки.

Кто-нибудь пробовал такое?

Извините, что не включил примеры. Я удалю секреты / PII из своих файлов и прикреплю их к вопросу

Ответ №1:

Я использовал документацию AWS для элемента задачи a2i-crowd-textract-detection human для генерации значения initialValue атрибута. Похоже, документ для этого атрибута неверен. В то время как документ показывает, что значение должно быть в том же формате, что и выходные данные Textract, а именно:

 [
        {
            "BlockType": "KEY_VALUE_SET",
            "Confidence": 38.43309020996094,
            "Geometry": { ... }
            "Id": "8c97b240-0969-4678-834a-646c95da9cf4",
            "Relationships": [
                { "Type": "CHILD", "Ids": [...]},
                { "Type": "VALUE", "Ids": [...]}
            ],
            "EntityTypes": ["KEY"],
            "Text": "Foo bar"
        },
]
  

a2i-crowd-textract-detection ожидается, что входные данные будут иметь имена атрибутов нижнего регистра (а не верхнего регистра). Например:

 [
        {
            "blockType": "KEY_VALUE_SET",
            "confidence": 38.43309020996094,
            "geometry": { ... }
            "id": "8c97b240-0969-4678-834a-646c95da9cf4",
            "relationships": [
                { "Type": "CHILD", "ids": [...]},
                { "Type": "VALUE", "ids": [...]}
            ],
            "entityTypes": ["KEY"],
            "text": "Foo bar"
        },
]
  

Я открыл обращение в службу поддержки по поводу этой ошибки документации в AWS.