Почему кодировка BPE, обученная на английском и примененная на бенгальском, не возвращает неизвестные токены?
#huggingface-transformers #huggingface-tokenizers #roberta-language-model Вопрос: Я использую токенизатор roberta-base tokenizer = RobertaTokenizerFast.from_pretrained('roberta-base',add_prefix_space=True) , обученный английским данным, для токенизации бенгальского языка, просто чтобы посмотреть, как он себя ведет . Когда я пытаюсь…