Похож ли BertTokenizer на встраивание слов?

#deep-learning #nlp #word-embedding #huggingface-tokenizers

Вопрос:

Идея использования BertTokenizer от huggingface действительно сбивает меня с толку.

  1. Когда я использую
     tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
    tokenizer.encode_plus("Hello")
     

Является ли результат чем-то похожим на то, когда я передаю
один горячий вектор, представляющий «Привет», в матрицу встраивания обучения?

  1. Как это
     BertTokenizer.from_pretrained("bert-base-uncased") 
     

отличается от

 BertTokenizer.from_pretrained("bert-**large**-uncased") 
 

а другие предварительно обученные?

Ответ №1:

Функции encode_plus и encode маркируют ваши тексты и подготавливают их в соответствующем формате ввода модели BERT. Поэтому вы можете видеть их похожими на вектор «один горячий» в приведенном вами примере.
encode_plus Возвращает пакетное кодирование, состоящее из input_ids , token_type_ids , и attention_mask .

Предварительно обученная модель отличается в зависимости от количества слоев кодера. Базовая модель имеет 12 кодеров, а большая модель имеет 24 слоя кодеров.