#deep-learning #loss-function #image-classification
Вопрос:
Я не уверен, что здесь уместно задавать подобные вопросы.
Если мой вопрос не подходит для этого форума и вы знаете подходящий форум для моего вопроса, пожалуйста, порекомендуйте!
У меня есть общий вопрос о функции потерь для классификации изображений.
Почему моя функция потерь работает плохо?
У меня есть модель CNN, которая классифицирует изображение, и моя модель была хорошо обучена с потерей перекрестной энтропии. ( распределение вероятностей ответа p
задается одним горячим вектором для loss= sum of pi*log(qi)
.
Я хочу дать частичную оценку, даже если модель предсказывает неверно. Другими словами, я хочу рассмотреть сходство между категориями для расчета убытков.
Например, я хочу классифицировать данное изображение в одну из 4 категорий: c1, c2, c3, c4
. У меня есть таблица баллов, как показано ниже.
c1 c2 c3 c4
c1 2.0 1.0 0.0 -1.0
c2 1.0 2.0 -1.0 0.0
c3 0.0 -1.0 0.0 1.0
c4 -1.0 0.0 1.0 2.0
Выход моей модели-это вектор вероятности, который относится к каждой категории, норамлизуемый функцией softmax. output : [q1,q2,q3,q4] # q1 q2 q3 q4=1.0
Я надеюсь, что моя модель вернется к максимальному показателю ожиданий, который рассчитывается с помощью матрицы подобия.
Когда данное изображение принадлежит c1, т. е. распределение вероятности истинности p : [1.0, 0.0, 0.0, 0.0]
, я надеюсь вычислить потери для этой задачи следующим образом, loss = ( S_11*q1 S_12*q2 S_13*q3 S_14*q4 ) * ( -1)
, где S_ij
элемент матрицы подобия, описанной выше. Однако обучение идет очень медленно. Величина потерь уменьшается очень медленно. И другая наблюдаемая мера, связанная с производительностью модели, говорит о том, что обучение действительно идет медленно.
Я думаю, что моя функция потерь имеет ту же цель, что и функция потерь перекрестной энтропии : когда ci
задано изображение, максимизируйте qi
.
Почему моя функция потерь плохо работает??
Я уже рассматриваю форму функции потерь перекрестной энтропии с учетом сходства sum of pi*log(qi)
, где [p1,p2,p3,p4]
больше нет одного горячего вектора. Но трудно получить распределение вероятностей (p) из матрицы подобия. И это не то, чего я хочу.
На самом деле я работаю над физической химией и биоинформатикой, а не над классификацией изображений.
Спасибо, что прочитали.