#python #deep-learning #computer-vision #tensorflow2.0 #tf.keras
Вопрос:
Я пытаюсь создать пользовательский детектор ключевых точек с помощью TF2. Я уверен, что мне многого не хватает, вот почему я прошу вас о помощи.
Мой конкретный вариант использования-определить 4 угла номерного знака. Сначала я использую YOLO, чтобы найти пластину, затем я немного раздуваю ограничительную рамку, чтобы освободить больше места вокруг пластины, и, наконец, пытаюсь определить 4 угла пластины. Примером того, что я пытаюсь сделать, является
Я надеюсь обнаружить угловые координаты, а не только ограничивающую рамку yolo, потому что иногда пластина поворачивается. Наличие 4 точек позволит мне использовать метод OpenCV warpPerspective для получения фронтального обзора пластины.
До сих пор я пытался создать модель с MobileNetV3 в качестве базовой модели, а затем добавить слой GlobalAveragePooling2D и плотный слой. Плотный слой содержит 8 нейронов, соответствующих 8 значениям, которые я пытаюсь предсказать (tlx, trx, brx, blx, tly, try, bry, bly). Я также попытался создать очень простой CNN с тем же выходным слоем.
Функции потери, которые я пробовал, следующие: mse — mae — huber.
Точность модели никогда не была достаточно хорошей в моих тестах. Ребята, вы можете мне помочь или указать правильное направление ? Спасибо!
Вот записная книжка Google colab с моими экспериментами: https://colab.research.google.com/drive/1b1GLdcqnobDDJRKq95e8Uqbvo2zBagbr?usp=sharing