Сбой выделения памяти токенизатора HuggingFace BPE

#machine-learning #huggingface-tokenizers

Вопрос:

Я использую HuggingFace BPE tokenizer для обучения токенизатор в своем корпусе данных. Однако я постоянно получаю следующую ошибку: memory allocation of 16431366792 bytes failed .

Я пробовал использовать для этого более крупные экземпляры ec2 (до m5a.24x.large), но продолжаю получать ту же ошибку. Моя версия токенизаторов такова 0.10.0 .

Ниже приведен код для обучения:

 tokenizer = Tokenizer(BPE())
tokenizer.pre_tokenizer = Whitespace()
trainer = BpeTrainer(
    special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"],
    files=corpus_files,
    vocab_size=vocab_size,
    min_frequency=min_frequency,
)
tokenizer.train(files=corpus_files, trainer=trainer)
return tokenizer
 

Есть идеи, что может быть причиной этого и как это обойти ?