Функция потерь для классификации изображений с учетом сходства

#deep-learning #loss-function #image-classification

Вопрос:

Я не уверен, что здесь уместно задавать подобные вопросы.

Если мой вопрос не подходит для этого форума и вы знаете подходящий форум для моего вопроса, пожалуйста, порекомендуйте!

У меня есть общий вопрос о функции потерь для классификации изображений.

Почему моя функция потерь работает плохо?

У меня есть модель CNN, которая классифицирует изображение, и моя модель была хорошо обучена с потерей перекрестной энтропии. ( распределение вероятностей ответа p задается одним горячим вектором для loss= sum of pi*log(qi) .

Я хочу дать частичную оценку, даже если модель предсказывает неверно. Другими словами, я хочу рассмотреть сходство между категориями для расчета убытков.

Например, я хочу классифицировать данное изображение в одну из 4 категорий: c1, c2, c3, c4 . У меня есть таблица баллов, как показано ниже.

              c1         c2           c3             c4
 c1         2.0        1.0          0.0           -1.0
 c2         1.0        2.0         -1.0            0.0 
 c3         0.0       -1.0          0.0            1.0
 c4        -1.0        0.0          1.0            2.0
 

Выход моей модели-это вектор вероятности, который относится к каждой категории, норамлизуемый функцией softmax. output : [q1,q2,q3,q4] # q1 q2 q3 q4=1.0

Я надеюсь, что моя модель вернется к максимальному показателю ожиданий, который рассчитывается с помощью матрицы подобия.

Когда данное изображение принадлежит c1, т. е. распределение вероятности истинности p : [1.0, 0.0, 0.0, 0.0] , я надеюсь вычислить потери для этой задачи следующим образом, loss = ( S_11*q1 S_12*q2 S_13*q3 S_14*q4 ) * ( -1) , где S_ij элемент матрицы подобия, описанной выше. Однако обучение идет очень медленно. Величина потерь уменьшается очень медленно. И другая наблюдаемая мера, связанная с производительностью модели, говорит о том, что обучение действительно идет медленно.

Я думаю, что моя функция потерь имеет ту же цель, что и функция потерь перекрестной энтропии : когда ci задано изображение, максимизируйте qi .
Почему моя функция потерь плохо работает??

Я уже рассматриваю форму функции потерь перекрестной энтропии с учетом сходства sum of pi*log(qi) , где [p1,p2,p3,p4] больше нет одного горячего вектора. Но трудно получить распределение вероятностей (p) из матрицы подобия. И это не то, чего я хочу.

На самом деле я работаю над физической химией и биоинформатикой, а не над классификацией изображений.

Спасибо, что прочитали.