#nlp #bert-language-model
Вопрос:
Я новичок в модели Google BERT. Я хотел бы знать, сколько помеченных данных необходимо для точной настройки модели BERT для классификации с несколькими метками. В моем случае я работаю с клиническими записями, и есть сотни занятий. Я ожидаю большого дисбаланса данных. Кроме того, в человеческих ярлыках будет довольно много шума.
Я знаю, что ответ действительно зависит от множества факторов: например, от необходимой мне точности.
Может ли кто-нибудь указать мне на исследования по этой теме?
Комментарии:
1. Пожалуйста, отредактируйте вопрос, чтобы ограничить его конкретной проблемой с достаточной детализацией для определения адекватного ответа.