Каков результат YOLO?

#tensorflow-lite #yolo

#tensorflow-lite #yolo

Вопрос:

Я пытаюсь использовать YOLO для определения номерного знака в приложении для Android.

Итак, я обучаю модели YOLOv3 и YOLOv4 в Google Colab. Я преобразовал эти 2 модели в TensorFlow Lite, используя замечательный проект Hunglc007, а также проверил, что они работают, и получил следующий результат :

обнаружены 3 номерных знака

Но когда я пытаюсь понять результат модели, чтобы адаптировать ее в своем приложении, я получил это с помощью netron:

Результат модели yolov3

Почему у меня есть 2 выхода, когда модель была обучена обнаруживать только один объект?

И почему формат вывода такой, что это [1,1,4] означает?

Редактировать

Код для bboxes можно найти здесь

 boxes, scores, classes, valid_detections = tf.image.combined_non_max_suppression(
            boxes=tf.reshape(boxes, (tf.shape(boxes)[0], -1, 1, 4)),
            scores=tf.reshape(
                pred_conf, (tf.shape(pred_conf)[0], -1, tf.shape(pred_conf)[-1])),
            max_output_size_per_class=50,
            max_total_size=50,
            iou_threshold=FLAGS.iou,
            score_threshold=FLAGS.score
        )
        pred_bbox = [boxes.numpy(), scores.numpy(), classes.numpy(), valid_detections.numpy()]
        image = utils.draw_bbox(original_image, pred_bbox)
        # image = utils.draw_bbox(image_data*255, pred_bbox)
        image = Image.fromarray(image.astype(np.uint8))
        image.show()
        image = cv2.cvtColor(np.array(image), cv2.COLOR_BGR2RGB)
        cv2.imwrite(FLAGS.output   'detection'   str(count)   '.png', image)
  

Комментарии:

1. Можете ли вы предоставить больше информации о своем собственном коде, например, о части, которая отображает эту последнюю цифру.

2. Код для изображения с bboxes или для информации о входах и выходах?

3. Код, который генерирует это. i.stack.imgur.com/hYtkT.png

4. Это lutzroeder.github.io/netron Я добавляю его при редактировании. Это инструмент для понимания входных и выходных данных для моделей. Вам просто нужно поместить .tflite в него свой файл, и он предоставит вам всю необходимую информацию

Ответ №1:

Я не эксперт в Netron, но, изучив проблему и ее ожидаемые результаты, я вижу, что она должна выдавать два результата для каждого обнаружения; прямоугольник обнаружения и достоверность обнаружения. Следовательно, два результата, о которых вы спрашиваете, вероятно, это прямоугольник, который определяется 4 числами с плавающей запятой — две координаты верхнего левого угла, ширина и высота — и доверительное значение, равное одному числу с плавающей запятой.

Ответ №2:

Это довольно очевидно. Для модели обнаружения. Как правило, он должен выдавать как минимум 2 вывода: ограничивающие рамки и классы относительно ограничивающих рамок. Следовательно, (1,1,4) — это результат 4 для ограничивающих рамок. Первое число 1 соответствует вашему изображению, полученному в модели. Поскольку у вас есть только один объект, то результат равен 1 для второго числа. Кроме того, конфигурация YOLO для ограничивающих рамок (x_center, y_center, width, height)

(1,1,1) будет таким же, но теперь 1 для метки выбранного вами класса.