Почему AllenNLP «PretrainedTransformerEmbedder» выводит все «last_hidden_state», включая первое » [CLS]»?

#bert-language-model #allennlp

Вопрос:

Моя интуиция заключается в том, что TokenEmbedder генерирует представления токенов (слов или подсловов), и его вывод будет использоваться для Seq2VecEncoder . Однако [CLS] используется для классификации во время обучения (например, Предсказание следующего предложения ). Поэтому для меня было бы разумно исключить первое представление [CLS] или, по крайней мере, добавить опцию PretrainedTransformerEmbedder для этого.

Это всего лишь моя интуитивная мысль. Надеетесь получить больше идей и критических замечаний, особенно о влиянии включения [CLS] представительства?