Вариационные автокодеры: MSE против BCE

#machine-learning #deep-learning #neural-network #autoencoder #loss-function

#машинное обучение #глубокое обучение #нейронная сеть #автокодер #функция потери

Вопрос:

Я работаю с вариационным автокодером, и я видел, что есть люди, которые используют MSE Loss, и некоторые люди, которые используют BCE Loss, кто-нибудь знает, является ли один более правильным, чем другой, и почему?

Насколько я понимаю, если вы предполагаете, что вектор скрытого пространства VAE следует гауссовскому распределению, вам следует использовать потери MSE. Если вы предполагаете, что это следует за мультиномиальным распределением, вам следует использовать BCE. Кроме того, BCE смещен в сторону 0,5.

Может ли кто-нибудь разъяснить мне эту концепцию? Я знаю, что это связано с более низким вариационным пределом ожидания информации…

Большое вам спасибо!

Ответ №1:

Короче говоря: максимизация вероятности модели, предсказание которой является нормальным распределением (мультиномиальное распределение), эквивалентно минимизации MSE (BCE)

Математические детали:

Настоящая причина, по которой вы используете MSE и функции потери кросс-энтропии

В DeepMind есть потрясающая лекция о современных моделях скрытых переменных (в основном о вариационных автокодерах), вы можете понять все, что вам нужно