Как генерировать вложения с помощью Bert

#python #tensorflow #nlp #embedding #bert-language-model

#python #тензорный поток #nlp #встраивание #bert-language-model

Вопрос:

Я начал использовать следующее ядро Kaggle:

После этого я использовал следующий код, который приближается:

 bert_config = modeling.BertConfig.from_json_file(bert_config_file)

processor = ColaProcessor()
label_list = processor.get_labels()

tokenizer = tokenization.FullTokenizer(vocab_file=vocab_file, do_lower_case=do_lower_case)

tpu_cluster_resolver = None
is_per_host = tf.contrib.tpu.InputPipelineConfig.PER_HOST_V2

train_examples = processor.get_train_examples(data_dir)
num_train_steps = int(len(train_examples) / train_batch_size * num_train_epochs)
num_warmup_steps = int(num_train_steps * warmup_proportion)

print("Feature Test")
features = convert_examples_to_features(examples=train_examples, label_list=label_list, max_seq_length=max_seq_length, tokenizer=tokenizer)
print("Feature Test Completed")
 

После того, как я это сделаю, я получаю следующий вывод для моей features переменной:

  <run_classifier.InputFeatures at 0x7f798eece780>,
 <run_classifier.InputFeatures at 0x7f798eefd7b8>,
 <run_classifier.InputFeatures at 0x7f798eece5c0>,
 <run_classifier.InputFeatures at 0x7f798eecec18>,
 <run_classifier.InputFeatures at 0x7f798eece978>,
 <run_classifier.InputFeatures at 0x7f798eeced68>,
 <run_classifier.InputFeatures at 0x7f798eece208>,
 <run_classifier.InputFeatures at 0x7f798eecea58>,
 

Мое замешательство заключается в том, как преобразовать это в массив вложений, который я могу использовать для других задач. Возможно, я упускаю из виду, как работает Bert.

Комментарии:

1. Вы хотите использовать встраивание bert для классификации или вы просто хотите использовать встраивания bert в какой-либо другой задаче или архитектуре DNN?