#tensorflow #machine-learning #keras #image-classification
#тензорный поток #машинное обучение #keras #классификация изображений
Вопрос:
Я новичок в tensorflow и пытаюсь построить модель для классификации двух классов изображений.
Точность проверки достигает 98% после 12 эпох (что кажется аномально высоким). При прогнозировании он всегда выводит: [[1.]] независимо от введенного изображения
Загрузка данных:
import numpy as np
import os
import cv2
from tqdm import tqdm
import random
import pickle
dataDir = "C:/optimised_dataset"
categories = ["demented", "healthy"]
IMG_WIDTH = 44
IMG_HEIGHT = 52
lim = 0
training_data = []
def create_training_data():
for category in categories:
path = os.path.join(dataDir, category) # path to demented or healthy dir
class_num = categories.index(category)
lim = 0
for img in tqdm(os.listdir(path)):
if lim < 3000:
try:
img_array = cv2.imread(os.path.join(path, img), cv2.IMREAD_GRAYSCALE)
new_array = cv2.resize(img_array, (IMG_WIDTH, IMG_HEIGHT))
training_data.append([new_array, class_num])
lim =1
except Exception as e:
pass
else:
break
create_training_data()
random.shuffle(training_data)
X = []
Y = []
for features, label in training_data:
X.append(features)
Y.append(label)
X = np.array(X).reshape(-1, IMG_WIDTH, IMG_HEIGHT, 1)
Y = np.array(Y)
pickle_out = open("X.pickle", "wb")
pickle.dump(X, pickle_out)
pickle_out.close()
pickle_out = open("Y.pickle", "wb")
pickle.dump(Y, pickle_out)
pickle_out.close()
Модель:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation, Flatten, Conv2D, MaxPool2D
import pickle
import numpy as np
X = pickle.load(open("X.pickle", "rb"))
Y = pickle.load(open("Y.pickle", "rb"))
X = np.array(X)
X = X/255.0
Y = np.array(Y)
model = Sequential()
model.add(Conv2D(64, (3,3), input_shape=X.shape[1:]))
model.add(Activation("relu"))
model.add(MaxPool2D(pool_size=(2,2)))
model.add(Conv2D(64, (3,3)))
model.add(Activation("relu"))
model.add(MaxPool2D(pool_size=(2,2)))
model.add(Flatten())
model.add(Dense(64))
model.add(Activation("relu"))
model.add(Dense(1))
model.add(Activation('sigmoid'))
model.compile(loss="binary_crossentropy",
optimizer="adam",
metrics=['accuracy'])
model.fit(X, Y, batch_size=32, epochs=18, validation_split=0.1)
model.save('DD1.model')
прогнозирование:
import cv2
import tensorflow as tf
categories = ["demented", "healthy"]
def prepare(filepath):
IMG_WIDTH = 44
IMG_HEIGHT = 52
img_array = cv2.imread(filepath, cv2.IMREAD_GRAYSCALE)
img_array = img_array / 255.0
new_array = cv2.resize(img_array, (IMG_WIDTH, IMG_HEIGHT))
return new_array.reshape(-1, IMG_WIDTH, IMG_HEIGHT, 1)
model = tf.keras.models.load_model("DD1.model")
prediction = model.predict([prepare('D:/test.png')])
print(prediction)
когда я удаляю img_array = img_array / 255.0
, он выводит кажущееся случайным десятичное число от 0 до 1.
Комментарии:
1. проверьте, не сильно ли ваши данные несбалансированы.
2. хм .. я заменил данные другим набором данных, и это сработало. Но я не понимаю, почему мои исходные данные дают точность проверки на 98%
Ответ №1:
Как я уже предположил, причиной таких случаев в большинстве случаев является классовый дисбаланс.
Допустим, у вас есть два класса: класс A с 96 выборками и класс B с 4 выборками в обучающем наборе. В таких крайних случаях, если мы начнем с модели, которая всегда предсказывает класс A, она достигнет точности 96%.
Чтобы решить эту проблему, вы можете попробовать —
- назначение весов классов.
from sklearn.utils import class_weight
class_weights = class_weight.compute_class_weight('balanced',
np.unique(y_train),
y_train)
model.fit(X_train, y_train, class_weight=class_weights)
- попробуйте увеличить количество выборок в классе меньшинства.
- вместо точности используйте оценку f1 для оценки вашей модели.