Распознавание дорожных знаков iOS CoreML — метка не показывает класс

Я следую этому руководству, чтобы создать простое приложение для глубокого обучения для распознавания дорожных знаков. Ссылка

Я создал собственную модель, и я также попробовал ее с моделью в этом репозитории: ссылка

Когда я запускаю приложение из xcode на своем iPhone, я вижу изображение камеры, но в тексте всегда написано «Метка», независимо от того, что на экране. Единственное, что я изменил из учебника, это то, что я жестко запрограммировал классы перед преобразованием в mlmodel:

     # import necessary packages
from keras.models import load_model
import coremltools
import argparse
import pickle
# construct the argument parser and parse the arguments

# load the class labels
print("[INFO] loading class labels from label binarizer")
# lb = pickle.loads(open(args["labelbin"], "rb").read())
# class_labels = lb.classes_.tolist()
class_labels = list(range(1, 43))
print("[INFO] class labels: {}".format(class_labels))
# load the trained convolutional neural network
print("[INFO] loading model...")
model = load_model('my_model.h5')
# convert the model to coreml format
print("[INFO] converting model")
coreml_model = coremltools.converters.keras.convert(model,
# save the model to disk
output = "mymodel.mlmodel"
print("[INFO] saving model as {}".format(output))

Поэтому вместо использования laber binarizer я сообщил конвертеру, что в моей модели 43 класса.

Вот мой AppDelegate.swift:

//  AppDelegate.swift
//  trafficsign
//  Created by administrator on 2020. 11. 11..
//  Copyright © 2020. administrator. All rights reserved.

import UIKit

class AppDelegate: UIResponder, UIApplicationDelegate {

    var window: UIWindow?

    func application(_ application: UIApplication, didFinishLaunchingWithOptions launchOptions: [UIApplication.LaunchOptionsKey: Any]?) -> Bool {
        // Override point for customization after application launch.
        // Override point for customization after application launch.
        window = UIWindow()
        let vc = ViewController()
        window?.rootViewController = vc
        return true



Мой SceneDelegate.swift:

//  SceneDelegate.swift
//  trafficsign
//  Created by administrator on 2020. 11. 11..
//  Copyright © 2020. administrator. All rights reserved.

import UIKit

class SceneDelegate: UIResponder, UIWindowSceneDelegate {

    var window: UIWindow?

    func scene(_ scene: UIScene, willConnectTo session: UISceneSession, options connectionOptions: UIScene.ConnectionOptions) {
        // Use this method to optionally configure and attach the UIWindow `window` to the provided UIWindowScene `scene`.
        // If using a storyboard, the `window` property will automatically be initialized and attached to the scene.
        // This delegate does not imply the connecting scene or session are new (see `application:configurationForConnectingSceneSession` instead).
        guard let windowScene = (scene as? UIWindowScene) else { return }
        window = UIWindow(windowScene: windowScene)
        window?.rootViewController = ViewController()

    func sceneDidDisconnect(_ scene: UIScene) {
        // Called as the scene is being released by the system.
        // This occurs shortly after the scene enters the background, or when its session is discarded.
        // Release any resources associated with this scene that can be re-created the next time the scene connects.
        // The scene may re-connect later, as its session was not neccessarily discarded (see `application:didDiscardSceneSessions` instead).

    func sceneDidBecomeActive(_ scene: UIScene) {
        // Called when the scene has moved from an inactive state to an active state.
        // Use this method to restart any tasks that were paused (or not yet started) when the scene was inactive.

    func sceneWillResignActive(_ scene: UIScene) {
        // Called when the scene will move from an active state to an inactive state.
        // This may occur due to temporary interruptions (ex. an incoming phone call).

    func sceneWillEnterForeground(_ scene: UIScene) {
        // Called as the scene transitions from the background to the foreground.
        // Use this method to undo the changes made on entering the background.

    func sceneDidEnterBackground(_ scene: UIScene) {
        // Called as the scene transitions from the foreground to the background.
        // Use this method to save data, release shared resources, and store enough scene-specific state information
        // to restore the scene back to its current state.


И, самое главное, мой SceneDelegate.swift:

//  ViewController.swift
//  trafficsign
//  Created by administrator on 2020. 11. 11..
//  Copyright © 2020. administrator. All rights reserved.

import UIKit
import AVFoundation
import Vision

class ViewController: UIViewController, AVCaptureVideoDataOutputSampleBufferDelegate {
    let label: UILabel = {
        let label = UILabel()
        label.textColor = .white
        label.translatesAutoresizingMaskIntoConstraints = false
        label.text = "Label"
        label.font = label.font.withSize(30)
        return label
    override func viewDidLoad() {
    override func didReceiveMemoryWarning() {
        // call the parent function
        // Dispose of any resources that can be recreated.
    func setupCaptureSession() {
        // create a new capture session
        let captureSession = AVCaptureSession()
        // find the available cameras
        let availableDevices = AVCaptureDevice.DiscoverySession(deviceTypes: [.builtInWideAngleCamera], mediaType: AVMediaType.video, position: .back).devices
        do {
            // select a camera
            if let captureDevice = availableDevices.first {
                captureSession.addInput(try AVCaptureDeviceInput(device: captureDevice))
        } catch {
            // print an error if the camera is not available
        // setup the video output to the screen and add output to our capture session
        let captureOutput = AVCaptureVideoDataOutput()
        let previewLayer = AVCaptureVideoPreviewLayer(session: captureSession)
        previewLayer.frame = view.frame
        // buffer the video and start the capture session
        captureOutput.setSampleBufferDelegate(self, queue: DispatchQueue(label: "videoQueue"))
//        // creates a new capture session
//        let captureSession = AVCaptureSession()
//        // search for available capture devices
//        let availableDevices = AVCaptureDevice.DiscoverySession(deviceTypes: [.builtInWideAngleCamera], mediaType: AVMediaType.video, position: .back).devices
//        // get capture device, add device input to capture session
//        do {
//            if let captureDevice = availableDevices.first {
//                captureSession.addInput(try AVCaptureDeviceInput(device: captureDevice))
//            }
//        } catch {
//            print(error.localizedDescription)
//        }
//        // setup output, add output to capture session
//        let captureOutput = AVCaptureVideoDataOutput()
//        captureSession.addOutput(captureOutput)
//        captureOutput.setSampleBufferDelegate(self, queue: DispatchQueue(label: "videoQueue"))
//        let previewLayer = AVCaptureVideoPreviewLayer(session: captureSession)
//        previewLayer.frame = view.frame
//        previewLayer.videoGravity = .resizeAspectFill
//        view.layer.addSublayer(previewLayer)
//        captureSession.startRunning()
    // called everytime a frame is captured
    func captureOutput(_ output: AVCaptureOutput, didOutput sampleBuffer: CMSampleBuffer, from connection: AVCaptureConnection) {
        // load our CoreML Pokedex model
        guard let model = try? VNCoreMLModel(for: model_squeezeNet_TSR().model) else { return }
        // run an inference with CoreML
        let request = VNCoreMLRequest(model: model) { (finishedRequest, error) in
            // grab the inference results
            guard let results = finishedRequest.results as? [VNClassificationObservation] else { return }
            // grab the highest confidence result
            guard let Observation = results.first else { return }
            // create the label text components
            let predclass = "(Observation.identifier)"
            let predconfidence = String(format: "%.02f%", Observation.confidence * 100)
            // set the label text
            DispatchQueue.main.async(execute: {
                self.label.text = "(predclass) (predconfidence)"
        // create a Core Video pixel buffer which is an image buffer that holds pixels in main memory
        // Applications generating frames, compressing or decompressing video, or using Core Image
        // can all make use of Core Video pixel buffers
        guard let pixelBuffer: CVPixelBuffer = CMSampleBufferGetImageBuffer(sampleBuffer) else { return }
        // execute the request
        try? VNImageRequestHandler(cvPixelBuffer: pixelBuffer, options: [:]).perform([request])
//        guard let model = try? VNCoreMLModel(for: model_squeezeNet_TSR().model) else { return }
//        let request = VNCoreMLRequest(model: model) { (finishedRequest, error) in
//            guard let results = finishedRequest.results as? [VNClassificationObservation] else { return }
//            guard let Observation = results.first else { return }
//            DispatchQueue.main.async(execute: {
//                self.label.text = "(Observation.identifier)"
//                print(Observation.confidence)
//            })
//        }
//        guard let pixelBuffer: CVPixelBuffer = CMSampleBufferGetImageBuffer(sampleBuffer) else { return }
//        // executes request
//        try? VNImageRequestHandler(cvPixelBuffer: pixelBuffer, options: [:]).perform([request])
    func setupLabel() {
        label.centerXAnchor.constraint(equalTo: view.centerXAnchor).isActive = true
        label.bottomAnchor.constraint(equalTo: view.bottomAnchor, constant: -50).isActive = true


1. Вчера я также пытался добавить бинаризатор меток в мой сценарий создания модели. Таким образом, приложение показывает некоторые данные вместо метки, но это было полностью «непоследовательно». В основном он показывает что-то вроде этого: «42 33.74» (без отметки «%», что очень странно …) иногда вместо 42 он показывает 30 или 15, но это не имеет никакого отношения к тому, что видит камера

Ответ №1:

Я не знаю, исправляет ли это, но в вашем сценарии преобразования попробуйте следующее:

 class_labels = list(range(1, 43))
class_labels = [str(x) for x in class_labels]   # add this line

В настоящее время ваши метки классов являются целыми числами. Возможно, в какой-то момент это сбивает с толку Core ML или Vision.


1. теперь он показывает элементы списка, когда команда печати его печатает. Список BTW (1, 43) сгенерировал элементы из 1 …42… итак, это должен быть список (1, 44) Теперь давайте посмотрим, работает ли это.

2. Но странно то, что он делает то же самое с mlmodel из репозитория git, на который я ссылался в исходном сообщении

Ответ №2:

Поэтому я добавил бинаризатор меток в свой скрипт генератора моделей. Я использовал оригинальный скрипт coremlconverter, который получает метки из бинаризатора меток. Когда я запускаю его, он также перечисляет 42 метки, поэтому он получает их. Но когда я запускаю приложение, оно по-прежнему показывает противоречивые вещи. Не текст «Метки», а случайные значения, независимо от того, что находится на камере. вот видео: ссылка

Вот моя модель, создающая скрипт python (те комментарии, которые на венгерском языке, не важны, они очевидны для тех, кто знает python):

 #!/usr/bin/env python
# coding: utf-8

# In[1]:

pip install tensorflow==1.15.0 keras==2.2.4 scikit-learn==0.19.2 matplotlib pandas pillow opencv-python

# In[9]:

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import cv2
import pickle
#import tensorflow as tf
from PIL import Image
import os
from sklearn.model_selection import train_test_split
from keras.utils import to_categorical
from keras.models import Sequential, load_model
from keras.layers import Conv2D, MaxPool2D, Dense, Flatten, Dropout
from sklearn.preprocessing import LabelBinarizer

data = []
labels = []
classes = 43
cur_path = os.getcwd()

#Képek és címkék betöltése
for i in range(classes):
    path = os.path.join(cur_path,'train',str(i))
    images = os.listdir(path)

    for a in images:
            image = Image.open(path   '\'  a)
            image = image.resize((30,30))
            image = np.array(image)
            #sim = Image.fromarray(image)
            print("Error loading image")

#Listák numpy tömbökbe konvertálása
data = np.array(data)
labels = np.array(labels)
#these two lines are commented when the script is used without label binarizer
lb = LabelBinarizer()
labels = lb.fit_transform(labels)

# In[10]:

print(data.shape, labels.shape)
#Az adathalmaz szétválasztása teszt és edző adathalmazokra
X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.2, random_state=42)

print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)
#Címkék konvertálása one-hot kódolásúra
#the next two lines are uncommented, when the script is used without label binarizer
#y_train = to_categorical(y_train, 43)
#y_test = to_categorical(y_test, 43)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

# In[11]:

#A modell kialakítása
model = Sequential()
model.add(Conv2D(filters=32, kernel_size=(5,5), activation='relu', input_shape=X_train.shape[1:]))
model.add(Conv2D(filters=32, kernel_size=(5,5), activation='relu'))
model.add(MaxPool2D(pool_size=(2, 2)))
model.add(Conv2D(filters=64, kernel_size=(3, 3), activation='relu'))
model.add(Conv2D(filters=64, kernel_size=(3, 3), activation='relu'))
model.add(MaxPool2D(pool_size=(2, 2)))
model.add(Dense(256, activation='relu'))
model.add(Dense(43, activation='softmax'))

#A modell összeállítása
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# In[12]:

epochs = 15
history = model.fit(X_train, y_train, batch_size=32, epochs=epochs, validation_data=(X_test, y_test))

# In[5]:

# save the label binarizer to disk
import pickle
print("[INFO] serializing label binarizer...")
f = open("labelbin", "wb")

# In[13]:

#Pontosság ábrázolása grafikonon
plt.plot(history.history['acc'], label='training accuracy')
plt.plot(history.history['val_acc'], label='val accuracy')

plt.plot(history.history['loss'], label='training loss')
plt.plot(history.history['val_loss'], label='val loss')

# In[8]:

#Pontosság tesztelése a tényleges tesztadathalmazon
from sklearn.metrics import accuracy_score


y_test = pd.read_csv('Test.csv')

labels = y_test["ClassId"].values
imgs = y_test["Path"].values


for img in imgs:
    image = Image.open(img)
    image = image.resize((30,30))


pred = model.predict_classes(X_test)

#Pontosság teszt adatokkal
from sklearn.metrics import accuracy_score
print(accuracy_score(labels, pred))

# In[13]:

import os
import time
from sklearn.metrics import accuracy_score

cur_path = os.getcwd()
path = os.path.join(cur_path)

y_test = pd.read_csv('Test.csv')

labels = y_test["ClassId"].values
imgs = y_test["Path"].values

#Átlagos futásidő kiszámítása
for img in imgs:
    start_time = time.time()
    image = Image.open(img)
    image = image.resize((30,30))
    image = np.expand_dims(image, axis=0)
    image = np.array(image)
    pred = model.predict_classes([image])[0]
    timecur = (time.time() - start_time)
    print("--- %s seconds ---" % (timecur))
    timesum = timesum   timecur
    icount = icount 1

for img in imgs:
    image = Image.open(img)
    image = image.resize((30,30))

print("Átlag: ", (timesum/icount))

pred = model.predict_classes(X_test)

from sklearn.metrics import accuracy_score
print(accuracy_score(labels, pred))

# In[7]:

import tkinter as tk
import time
from tkinter import filedialog
from tkinter import *

from PIL import ImageTk, Image
import numpy
#Az edzett modell betöltése
from keras.models import load_model
model = load_model('my_model.h5')
#Az osztályok nevének listája a kiiratáshoz
classes = { 1:'Speed limit (20km/h)',
            2:'Speed limit (30km/h)', 
            3:'Speed limit (50km/h)', 
            4:'Speed limit (60km/h)', 
            5:'Speed limit (70km/h)', 
            6:'Speed limit (80km/h)', 
            7:'End of speed limit (80km/h)', 
            8:'Speed limit (100km/h)', 
            9:'Speed limit (120km/h)', 
            10:'No passing', 
            11:'No passing veh over 3.5 tons', 
            12:'Right-of-way at intersection', 
            13:'Priority road', 
            16:'No vehicles', 
            17:'Veh > 3.5 tons prohibited', 
            18:'No entry', 
            19:'General caution', 
            20:'Dangerous curve left', 
            21:'Dangerous curve right', 
            22:'Double curve', 
            23:'Bumpy road', 
            24:'Slippery road', 
            25:'Road narrows on the right', 
            26:'Road work', 
            27:'Traffic signals', 
            29:'Children crossing', 
            30:'Bicycles crossing', 
            31:'Beware of ice/snow',
            32:'Wild animals crossing', 
            33:'End speed   passing limits', 
            34:'Turn right ahead', 
            35:'Turn left ahead', 
            36:'Ahead only', 
            37:'Go straight or right', 
            38:'Go straight or left', 
            39:'Keep right', 
            40:'Keep left', 
            41:'Roundabout mandatory', 
            42:'End of no passing', 
            43:'End no passing veh > 3.5 tons' }
#GUI betöltése
top.title('Traffic sign classification')
label=Label(top,background='#CDCDCD', font=('arial',15,'bold'))
sign_image = Label(top)
def classify(file_path):
    start_time = time.time()
    global label_packed
    image = Image.open(file_path)
    image = image.resize((30,30))
    image = numpy.expand_dims(image, axis=0)
    image = numpy.array(image)
    pred = model.predict_classes([image])[0]
    sign = classes[pred 1]
    print("--- %s seconds ---" % (time.time() - start_time))
    label.configure(foreground='#011638', text=sign) 
def show_classify_button(file_path):
    classify_b=Button(top,text="Classify Image",command=lambda: classify(file_path),padx=10,pady=5)
    classify_b.configure(background='#364156', foreground='white',font=('arial',10,'bold'))
def upload_image():
upload=Button(top,text="Upload an image",command=upload_image,padx=10,pady=5)
upload.configure(background='#364156', foreground='white',font=('arial',10,'bold'))
heading = Label(top, text="Know Your Traffic Sign",pady=20, font=('arial',20,'bold'))

# In[ ]:


1. Это может просто означать, что модель работает не очень хорошо. Обратите внимание, что это "%.02f%" должно быть "%.2f%%" с двумя знаками процента в конце (и, вероятно, с 0).

2. Модель должна работать хорошо, потому что для нее есть пакетный тест, а также крошечная программа python с графическим интерфейсом, и она работает хорошо. Что, если он каким-то образом получает изображение с камеры в неправильном формате? Например, искажено соотношение сторон или что-то в этом роде. Я могу поделиться своей моделью, если это поможет. В руководстве, которому я следовал, также есть модель, но она предназначена для классификации покемонов. Но кто-то, кто лучше знаком с python, может заметить что-то, чего я не вижу при их сравнении.

3. Еще один способ заключается в том, что я мог бы добавить бинаризатор меток в [this] [1] модель, чтобы посмотреть, работает ли это (лучше). Но я не знаю, как это сделать, может кто-нибудь мне помочь? [1]: github.com/jaeoh2/CoreML-Traffic-Sign-Classifier

4. Итак, я каким-то образом заставил это работать. Что я сделал: IsBGR = False в скрипте coremlconverter. Image_Scale = значение по умолчанию в скрипте coremlconverter. Все еще известные проблемы: он распознает только тогда, когда изображение повернуто на 90 градусов влево. Как я мог это исправить? Это происходит только на iPhone, а не в классификаторе python.