python : Разбор файла json в список словарей

#json #python-3.x #annotation-processing

Вопрос:

У меня есть следующие аннотации к файлу json, и вот скриншот его формы.древовидная структура файла json
древовидная структура файла json
расширенная древовидная структура одного и того же файла

Я хочу проанализировать его и извлечь следующую информацию необходимая информация, например, для задачи seg

вот ссылка, по которой я делаю этот снимок экрана, формирую стандартный набор данных.

Я попытался использовать этот код, который работает не так, как ожидалось.

 
def get_buildings_dicts(img_dir):
    json_file = os.path.join(img_dir, "annotations.json")
    with open(json_file) as f:
        imgs_anns = json.load(f)

    dataset_dicts = []
    for idx, v in enumerate(imgs_anns):
        record = {}
        
        filename = os.path.join(img_dir, v["imagePath"])
        height, width = cv2.imread(filename).shape[:2]
        
        record["file_name"] = filename
        record["image_id"] = idx
        record["height"] = height
        record["width"] = width
      
        annos = v["shapes"][idx]
        objs = []
        for anno in annos:
#             assert not anno["region_attributes"]
            anno = anno["shape_type"]
            px = anno["points"][0]
            py = anno["points"][1]
            poly = [(x   0.5, y   0.5) for x, y in zip(px, py)]
            poly = [p for x in poly for p in x]

            obj = {
                "bbox": [np.min(px), np.min(py), np.max(px), np.max(py)],
                "bbox_mode": BoxMode.XYXY_ABS,
                "segmentation": [poly],
                "category_id": 0,
            }
            objs.append(obj)
        record["annotations"] = objs
        dataset_dicts.append(record)
    return dataset_dicts
 

вот ожидаемый результат конечных элементов диктанта:

 {
    "file_name": "balloon/train/34020010494_e5cb88e1c4_k.jpg",
    "image_id": 0,
    "height": 1536,
    "width": 2048,
    "annotations": [
        {
            "bbox": [994, 619, 1445, 1166],
            "bbox_mode": <BoxMode.XYXY_ABS: 0>,
            "segmentation": [[1020.5, 963.5, 1000.5, 899.5, 994.5, 841.5, 1003.5, 787.5, 1023.5, 738.5, 1050.5, 700.5, 1089.5, 663.5, 1134.5, 638.5, 1190.5, 621.5, 1265.5, 619.5, 1321.5, 643.5, 1361.5, 672.5, 1403.5, 720.5, 1428.5, 765.5, 1442.5, 800.5, 1445.5, 860.5, 1441.5, 896.5, 1427.5, 942.5, 1400.5, 990.5, 1361.5, 1035.5, 1316.5, 1079.5, 1269.5, 1112.5, 1228.5, 1129.5, 1198.5, 1134.5, 1207.5, 1144.5, 1210.5, 1153.5, 1190.5, 1166.5, 1177.5, 1166.5, 1172.5, 1150.5, 1174.5, 1136.5, 1170.5, 1129.5, 1153.5, 1122.5, 1127.5, 1112.5, 1104.5, 1084.5, 1061.5, 1037.5, 1032.5, 989.5, 1020.5, 963.5]],
            "category_id": 0
        }
    ]
}
 

Комментарии:

1. Для сообщества важно, чтобы вы продемонстрировали, что вы также работаете над решением своей проблемы. Лучший способ сделать это-включить текстовую версию кода, которая у вас есть до сих пор (даже если она не работает).

2. спасибо, я добавил код ошибки.

Ответ №1:

Я думаю, что единственная сложная часть-это работа с вложенными списками, но несколько общих представлений, вероятно, могут облегчить нам жизнь.

Попробуй:

 import json

new_images = []
with open("merged_file.json", "r") as file_in:
    for index, image in enumerate( json.load(file_in)):
        #height, width = cv2.imread(filename).shape[:2]
        height, width = 100, 100
        new_images.append({
            "image_id": index,
            "filename": image["imagePath"],
            "height": height,
            "width": width,
            "annotations": [
                {
                    "category_id": 0,
                    #"bbox_mode": BoxMode.XYXY_ABS,
                    "bbox_mode": 0,
                    "bbox": [
                        min(x for x,y in shape["points"]),
                        min(y for x,y in shape["points"]),
                        max(x for x,y in shape["points"]),
                        max(y for x,y in shape["points"])
                    ],
                    "segmentation": [coord for point in shape["points"] for coord in point]
                }
                for shape in image["shapes"]
            ],
        })

print(json.dumps(new_images, indent=2))