модель keras достигает почти 100% точности проверки, но прогнозирование всегда возвращает 1

#tensorflow #machine-learning #keras #image-classification

#тензорный поток #машинное обучение #keras #классификация изображений

Вопрос:

Я новичок в tensorflow и пытаюсь построить модель для классификации двух классов изображений.

Точность проверки достигает 98% после 12 эпох (что кажется аномально высоким). При прогнозировании он всегда выводит: [[1.]] независимо от введенного изображения

Загрузка данных:

 import numpy as np
import os
import cv2
from tqdm import tqdm
import random
import pickle

dataDir = "C:/optimised_dataset"

categories = ["demented", "healthy"]

IMG_WIDTH = 44
IMG_HEIGHT = 52
lim = 0

training_data = []

def create_training_data():
    for category in categories:
        path = os.path.join(dataDir, category)  # path to demented or healthy dir
        class_num = categories.index(category)
        lim = 0
        for img in tqdm(os.listdir(path)):
            if lim < 3000:
                try:
                    img_array = cv2.imread(os.path.join(path, img), cv2.IMREAD_GRAYSCALE)
                    new_array = cv2.resize(img_array, (IMG_WIDTH, IMG_HEIGHT))
                    training_data.append([new_array, class_num])
                    lim =1
                except Exception as e:
                    pass
            else:
                break

create_training_data()

random.shuffle(training_data)

X = []
Y = []

for features, label in training_data:
    X.append(features)
    Y.append(label)

X = np.array(X).reshape(-1, IMG_WIDTH, IMG_HEIGHT, 1)
Y = np.array(Y)

pickle_out = open("X.pickle", "wb")
pickle.dump(X, pickle_out)
pickle_out.close()

pickle_out = open("Y.pickle", "wb")
pickle.dump(Y, pickle_out)
pickle_out.close()

 

Модель:

 from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation, Flatten, Conv2D, MaxPool2D
import pickle
import numpy as np

X = pickle.load(open("X.pickle", "rb"))
Y = pickle.load(open("Y.pickle", "rb"))

X = np.array(X)
X = X/255.0
Y = np.array(Y)

model = Sequential()

model.add(Conv2D(64, (3,3), input_shape=X.shape[1:]))
model.add(Activation("relu"))
model.add(MaxPool2D(pool_size=(2,2)))

model.add(Conv2D(64, (3,3)))
model.add(Activation("relu"))
model.add(MaxPool2D(pool_size=(2,2)))

model.add(Flatten())

model.add(Dense(64))
model.add(Activation("relu"))

model.add(Dense(1))
model.add(Activation('sigmoid'))

model.compile(loss="binary_crossentropy",
              optimizer="adam",
              metrics=['accuracy'])

model.fit(X, Y, batch_size=32, epochs=18, validation_split=0.1)

model.save('DD1.model')
 

прогнозирование:

 import cv2
import tensorflow as tf

categories = ["demented", "healthy"]


def prepare(filepath):
    IMG_WIDTH = 44
    IMG_HEIGHT = 52
    img_array = cv2.imread(filepath, cv2.IMREAD_GRAYSCALE)
    img_array = img_array / 255.0
    new_array = cv2.resize(img_array, (IMG_WIDTH, IMG_HEIGHT))
    return new_array.reshape(-1, IMG_WIDTH, IMG_HEIGHT, 1)


model = tf.keras.models.load_model("DD1.model")

prediction = model.predict([prepare('D:/test.png')])

print(prediction)
 

когда я удаляю img_array = img_array / 255.0 , он выводит кажущееся случайным десятичное число от 0 до 1.

Комментарии:

1. проверьте, не сильно ли ваши данные несбалансированы.

2. хм .. я заменил данные другим набором данных, и это сработало. Но я не понимаю, почему мои исходные данные дают точность проверки на 98%

Ответ №1:

Как я уже предположил, причиной таких случаев в большинстве случаев является классовый дисбаланс.

Допустим, у вас есть два класса: класс A с 96 выборками и класс B с 4 выборками в обучающем наборе. В таких крайних случаях, если мы начнем с модели, которая всегда предсказывает класс A, она достигнет точности 96%.

Чтобы решить эту проблему, вы можете попробовать —

  1. назначение весов классов.
 from sklearn.utils import class_weight

class_weights = class_weight.compute_class_weight('balanced',
                                                 np.unique(y_train),
                                                 y_train)


model.fit(X_train, y_train, class_weight=class_weights)

 
  1. попробуйте увеличить количество выборок в классе меньшинства.
  2. вместо точности используйте оценку f1 для оценки вашей модели.