Как вернуть token_type_ids из токенизатора XLMRoberta?

#pytorch #huggingface-transformers #transformer #huggingface-tokenizers #fairseq

Вопрос:

Я пытаюсь использовать XLMRoberta для PyTorch, но вывод токенизатора содержит только идентификаторы ввода и маски внимания. Идентификаторы token_type_id отсутствуют. Затем я где-то прочитал, что модели XLMR не нуждаются в разделении текстовых пар. Однако в приведенной выше настройке моя модель не сходится. Как мне вернуть идентификаторы token_type_id из функции XLMRoberta tokenizer?

Комментарии:

1. Как именно вы называете токенизатор? Не могли бы вы поделиться своим кодом?