Обучите модель БЕРТА с нуля на другом языке

#python #bert-language-model #huggingface-transformers #huggingface-tokenizers

Вопрос:

Сначала я создаю токенизатор следующим образом

 from tokenizers import Tokenizer
from tokenizers.models import BPE,WordPiece
tokenizer = Tokenizer(WordPiece(unk_token="[UNK]"))

from tokenizers.trainers import BpeTrainer,WordPieceTrainer
trainer = WordPieceTrainer(vocab_size=5000,min_frequency=3,
                     special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

from tokenizers.pre_tokenizers import Whitespace,WhitespaceSplit
tokenizer.pre_tokenizer = WhitespaceSplit()
tokenizer.train(files, trainer)

from tokenizers.processors import TemplateProcessing
tokenizer.token_to_id("[SEP]"),tokenizer.token_to_id("[CLS]")
tokenizer.post_processor = TemplateProcessing(
    single="[CLS] $A [SEP]",
    pair="[CLS] $A [SEP] $B:1 [SEP]:1",
    special_tokens=[
        ("[CLS]", tokenizer.token_to_id("[CLS]")),
        ("[SEP]", tokenizer.token_to_id("[SEP]")),
    ],
)

Затем я хочу обучить модель БЕРТА этим жетонам. Я попытался следовать

 from transformers import DataCollatorForLanguageModeling
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer,mlm=True, mlm_probability=0.15)

Но это дает мне ошибку
AttributeError: 'tokenizers.Tokenizer' object has no attribute 'mask_token'
«Этот токенизатор не имеет маркера маски, который необходим для моделирования языка с масками».
Хотя у меня есть attention_mask . Это отличается от mask token

Вопрос:

Вам также может понравиться

Добавление звука с использованием RandomAccessFile

Есть ли причина не исключать «только экран» из медиа-запросов в наши дни?

Ссылки на TCL (язык терморегулирования) [протокол принтера]