объяснение кода, скрывающегося за маской трансформатора (PyTorch)

#deep-learning #pytorch #transformer Вопрос: в реализации трансформатора я нашел следующую функцию ( size я полагаю, это длина последовательности):: def _gen_sqr_nxt_mask(self, size): msk = (torch.triu(torch.ones(size, size)) == 1).transpose(0, 1) msk =…

Продолжить чтениеобъяснение кода, скрывающегося за маской трансформатора (PyTorch)