#bert-language-model #allennlp
Вопрос:
Моя интуиция заключается в том, что TokenEmbedder
генерирует представления токенов (слов или подсловов), и его вывод будет использоваться для Seq2VecEncoder
. Однако [CLS]
используется для классификации во время обучения (например, Предсказание следующего предложения ). Поэтому для меня было бы разумно исключить первое представление [CLS]
или, по крайней мере, добавить опцию PretrainedTransformerEmbedder
для этого.
Это всего лишь моя интуитивная мысль. Надеетесь получить больше идей и критических замечаний, особенно о влиянии включения [CLS]
представительства?