Сколько помеченных данных требуется для точной настройки модели BERT на многомабельной классификации?

#nlp #bert-language-model

Вопрос:

Я новичок в модели Google BERT. Я хотел бы знать, сколько помеченных данных необходимо для точной настройки модели BERT для классификации с несколькими метками. В моем случае я работаю с клиническими записями, и есть сотни занятий. Я ожидаю большого дисбаланса данных. Кроме того, в человеческих ярлыках будет довольно много шума.

Я знаю, что ответ действительно зависит от множества факторов: например, от необходимой мне точности.

Может ли кто-нибудь указать мне на исследования по этой теме?

Комментарии:

1. Пожалуйста, отредактируйте вопрос, чтобы ограничить его конкретной проблемой с достаточной детализацией для определения адекватного ответа.