#deep-learning #bert-language-model
Вопрос:
Я строю модель на основе Берта. И я хочу использовать две задачи для обучения модели, которая состоит из Mask Language Modeling
и Classsification
.
Для этих двух задач я наблюдаю изменение потерь в период обучения. И я нахожу MLM loss
, что, кажется, не уменьшается, в то время clf loss
как уменьшается.
Что я должен сделать MLM loss
, чтобы уменьшить?
Мое learning rate
это 1e-5