Точная настройка Bert для определенного домена (без присмотра)

#python #deep-learning #neural-network #nlp #bert-language-model

#python #глубокое обучение #нейронная сеть #nlp #bert-language-model

Вопрос:

Я хочу точно настроить BERT для текстов, относящихся к определенному домену (в моем случае, связанных с разработкой). Обучение должно быть неконтролируемым, поскольку у меня нет никаких ярлыков или чего-либо еще. Возможно ли это?

Комментарии:

1. Вы получили решение для этого? Я нахожу сценарий huggingface очень длинным и изо всех сил пытаюсь получить подробное объяснение. Поделитесь, если у вас есть ответ. Спасибо!

Ответ №1:

На самом деле вы хотите продолжить предварительную подготовку BERT к тексту из вашего конкретного домена. Что вы делаете в этом случае, так это продолжаете обучать модель как модель с замаскированным языком, но на данных, специфичных для вашего домена.

Вы можете использовать run_mlm.py скрипт из трансформаторов Huggingface.

Комментарии:

1. должен ли я также расширять словарный запас при продолжении предварительной подготовки? Я спрашиваю, потому что текст, на котором я хочу обучить Bert, содержит очень специфические термины, связанные с электростанциями.

2. Вы можете. В файле best vocab есть много слотов, куда вы можете вставить слова, относящиеся к вашему домену.