Как я могу обучить модель bert для задачи репрезентативного обучения, специфичной для предметной области?

#python #embedding #bert-language-model #sentence-transformers

#python #встраивание #bert-language-model #предложение-трансформеры

Вопрос:

Я пытаюсь сгенерировать хорошие вложения предложений для некоторых текстов определенного типа, используя модели преобразования предложений, в то время как тестирование сходства и кластеризации с использованием kmeans не дает хороших результатов. Есть идеи по улучшению? Я думал об обучении любой модели преобразования предложений в моем наборе данных (которые являются просто предложениями, но не имеют никаких меток). Как я могу переобучить существующие модели специально для данных ny для создания лучших вложений. Спасибо.

Ответ №1:

Вложения предложений, созданные предварительно обученной моделью BERT, являются общими и не обязательно подходят для всех задач.

Чтобы решить эту проблему:

  1. Точно настройте модель с помощью корпуса задач, специфичного для данной задачи (если конечной целью является классификация, точно настройте модель для задачи классификации, позже вы можете использовать вложения из модели BERT) (это метод, предложенный для ИСПОЛЬЗОВАНИЯ вложений, особенно когда модель остается черной-вставка)
  2. Точная настройка модели без присмотра с использованием модели с замаскированным языком. Это не требует от вас предварительного знания задачи, но вы можете просто использовать фактическую стратегию обучения BERT для адаптации к вашему корпусу.