#machine-learning #huggingface-tokenizers
Вопрос:
Я использую HuggingFace BPE tokenizer
для обучения токенизатор в своем корпусе данных. Однако я постоянно получаю следующую ошибку: memory allocation of 16431366792 bytes failed
.
Я пробовал использовать для этого более крупные экземпляры ec2 (до m5a.24x.large), но продолжаю получать ту же ошибку. Моя версия токенизаторов такова 0.10.0
.
Ниже приведен код для обучения:
tokenizer = Tokenizer(BPE())
tokenizer.pre_tokenizer = Whitespace()
trainer = BpeTrainer(
special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"],
files=corpus_files,
vocab_size=vocab_size,
min_frequency=min_frequency,
)
tokenizer.train(files=corpus_files, trainer=trainer)
return tokenizer
Есть идеи, что может быть причиной этого и как это обойти ?