#nlp #pytorch #huggingface-transformers #encoder-decoder #gpt
Вопрос:
Я знаю, что внимание GPT-это Замаскированное Многоголовое Внимание. У меня есть предварительно подготовленная модель GPT, и я хочу назначить ее веса для кодировщика EncoderDecoderModel. Нравится:
model = EncoderDecoderModel.from_encoder_decoder_pretrained("pretrained_gpt_name","pretrained_for_decoder" , tie_encoder_decoder=True)
# Change masked attention to self attention here to make encoder bidirectional and copy weights.
Я совсем новичок в Трансформаторах и pytorch.