#deep-learning #nlp #word-embedding #huggingface-tokenizers
Вопрос:
Идея использования BertTokenizer от huggingface действительно сбивает меня с толку.
- Когда я использую
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") tokenizer.encode_plus("Hello")
Является ли результат чем-то похожим на то, когда я передаю
один горячий вектор, представляющий «Привет», в матрицу встраивания обучения?
- Как это
BertTokenizer.from_pretrained("bert-base-uncased")
отличается от
BertTokenizer.from_pretrained("bert-**large**-uncased")
а другие предварительно обученные?
Ответ №1:
Функции encode_plus
и encode
маркируют ваши тексты и подготавливают их в соответствующем формате ввода модели BERT. Поэтому вы можете видеть их похожими на вектор «один горячий» в приведенном вами примере.
encode_plus
Возвращает пакетное кодирование, состоящее из input_ids
, token_type_ids
, и attention_mask
.
Предварительно обученная модель отличается в зависимости от количества слоев кодера. Базовая модель имеет 12 кодеров, а большая модель имеет 24 слоя кодеров.