#azure-form-recognizer
#azure-form-recognizer
Вопрос:
Мне было интересно, есть ли что-то, чего мне не хватает при работе с несколькими экземплярами одного и того же помеченного поля в пользовательской модели Azure Form Recognizer (с метками)? Давайте, например, воспользуемся следующим (ОЧЕНЬ упрощенным) документом:
Теперь, если я обучу модель обнаруживать ‘Name’, ‘DOB’ и ‘Company’, я получу результаты, которые выглядят так:
{
"fields": {
"Name": {
"value_type": "string",
"label_data": null,
"value_data": {
"page_number": 1,
"text": "John R. Smith Ronald Johnson., Esquire",
"bounding_box": [
[
0.57,
4.435
],
[
1.8,
4.435
],
[
1.8,
6.005
],
[
0.57,
6.005
]
],
"field_elements": null
},
"name": "Name",
"value": "John R. Smith Ronald Johnson., Esquire",
"confidence": 1
},
...
Как вы можете видеть, между каждым «экземпляром» Name
поля в результатах JSON Azure Form Recognizer нет разделителя. Как я должен обучать и / или обрабатывать результаты поля таким образом, чтобы я мог извлекать каждый экземпляр данного поля из документа?
Первое, что я попробовал, это пометить имя метки и значение для поля из документа и обучиться этому. Например, Name: John R. Smith
и Name: Ronald Johnson., Esquire
было бы тем, что я отметил в FOTT в качестве Name
поля для этого учебного примера. Затем я бы разделил результат на Name:
. Теоретически это кажется нормальным, но на практике я получил ОЧЕНЬ низкую точность по сравнению с выбором ТОЛЬКО значения поля и обучением на них.
Ответ №1:
Пожалуйста, пометьте их как Name1 и Name2, чтобы извлечь их как отдельные поля.
Комментарии:
1. В шаблоне документа может быть произвольно много экземпляров каждого типа поля. Это не общее решение.