Можно ли использовать другую модель трансформатора для токенизатора и модели?

#nlp #bert-language-model #roberta

Вопрос:

Могу ли я использовать Роберту для токенизатора, а Берта-для модели?

 from transformers import RobertaTokenizerFast

tokenizer = RobertaTokenizerFast.from_pretrained("./bert_tokenizer", max_len=512)

from transformers import BertForMaskedLM
config = BertConfig()
bert= BertForMaskedLM(config)
 

Ответ №1:

Вы не можете использовать токенизатор Роберты для модели БЕРТА. Причина в том, что словарный запас у Берта и Роберты разный. Таким образом, лексема словосочетания, присутствующая в словаре Роберты, может отсутствовать в словаре БЕРТА.