Мути-потеря не может быть

#deep-learning #bert-language-model

Вопрос:

Я строю модель на основе Берта. И я хочу использовать две задачи для обучения модели, которая состоит из Mask Language Modeling и Classsification .

Для этих двух задач я наблюдаю изменение потерь в период обучения. И я нахожу MLM loss , что, кажется, не уменьшается, в то время clf loss как уменьшается.

Что я должен сделать MLM loss , чтобы уменьшить?

Мое learning rate это 1e-5