Похож ли BertTokenizer на встраивание слов?

#deep-learning #nlp #word-embedding #huggingface-tokenizers

Вопрос:

Идея использования BertTokenizer от huggingface действительно сбивает меня с толку.

Когда я использую

 tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
tokenizer.encode_plus("Hello")

Является ли результат чем-то похожим на то, когда я передаю
один горячий вектор, представляющий «Привет», в матрицу встраивания обучения?

Как это

 BertTokenizer.from_pretrained("bert-base-uncased")

отличается от

 BertTokenizer.from_pretrained("bert-**large**-uncased")

а другие предварительно обученные?

Ответ №1:

Функции encode_plus и encode маркируют ваши тексты и подготавливают их в соответствующем формате ввода модели BERT. Поэтому вы можете видеть их похожими на вектор «один горячий» в приведенном вами примере.
encode_plus Возвращает пакетное кодирование, состоящее из input_ids , token_type_ids , и attention_mask .

Предварительно обученная модель отличается в зависимости от количества слоев кодера. Базовая модель имеет 12 кодеров, а большая модель имеет 24 слоя кодеров.

Вопрос:

Ответ №1:

Вам также может понравиться

Назначение данных определенному пользователю с помощью SQL / VisualStudio?

Автономный хостинг Supabase ответил 404

Как я могу использовать объект типа в качестве конкретного типа?