Проблемы с пониманием поведения модифицированного прямого метода VGG16 (Pytorch)

#python #deep-learning #neural-network #pytorch #conv-neural-network

Вопрос:

Я изменил VGG16 в pytorch, чтобы вставлять такие вещи, как BN и выпадение, в экстрактор функций. Случайно я теперь заметил кое-что странное, когда изменил определение прямого метода с:

 def forward(self, x):
    x = self.model(x)
    return x
 

Для:

 def forward(self, x):
    x = self.model.features(x)
    x = self.model.avgpool(x)
    x = self.model.classifier(x)
    return x
 

Во втором методе я теперь получаю ошибку, что размеры матриц не совпадают
( mat1 dim 1 must match mat2 dim 0 )

Ниже приведен весь код отредактированной версии VGG, которую я использовал.

 class Vgg(nn.Module):
    
    def __init__(self, n_classes, bias= None, dropout = 0.3):
        
        super().__init__()
        
        self.model = models.vgg16()
        #self.bn64 = nn.BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        #self.bn128 = nn.BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        #self.bn256 = nn.BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        #self.bn512 = nn.BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        
        # change to allow 4 channels input
        self.model.features[0] = nn.Conv2d(4, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3))

        # remove/edit some of the first layers to make it more similar to Resnet
        del self.model.features[2]
        del self.model.features[2]
        del self.model.features[-1]
        self.model.features[2] = nn.MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
        
        # add dropout
        for m in self.model.modules():
            if isinstance(m, nn.Dropout):
                m.p = dropout
            else:
                pass
            
        self.dropout = nn.Dropout(p=dropout)
        self.r = nn.ReLU(inplace=True)
        
        modules = nn.Sequential(*[self.model.features[0],
                                  #self.bn64,
                                  self.model.features[1:3],
                                  #self.bn64,
                                  self.model.features[3:5],
                                  #self.dropout, 
                                  
                                  self.model.features[5],
                                  #self.bn128,
                                  self.model.features[6:8],
                                  #self.bn128,
                                  self.model.features[8:10],
                                  #self.dropout, 
                                  
                                  self.model.features[10],
                                  #self.bn256,
                                  self.model.features[11:13],
                                  #self.bn256,
                                  self.model.features[13:15],
                                  #self.bn256,
                                  self.model.features[15:17],
                                  #self.dropout,
                                  
                                  self.model.features[17],
                                  #self.bn512,
                                  self.model.features[18:20],
                                  #self.bn512,
                                  self.model.features[20:22],
                                  #self.bn512,
                                  self.model.features[22:24],
                                  #self.dropout,
                                  
                                  self.model.features[24],
                                  #self.bn512,
                                  self.model.features[25:27],
                                  #self.bn512,
                                  self.model.features[27:29],
                                  #self.bn512,
                                  #self.dropout
                                  nn.MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
                                 ])
        
        
        self.model.features = modules
        
        # change the pooling layer
        self.model.avgpool = nn.AdaptiveAvgPool2d(output_size=(1, 1))
        
        # set output to correct num classes
        self.model.classifier = nn.Linear(in_features=512, out_features=n_classes, bias=True)
        
        # use predefined bias
        if bias is not None:
            assert isinstance(bias, torch.Tensor), 'bias must be tensor'
            self.model.classifier.bias = nn.Parameter(bias)
        
    def forward(self, x):
        x = self.model.features(x)
        x = self.model.avgpool(x)
        x = self.model.classifier(x)
        return x
 

Я знаю, что это очень некрасиво и банально выглядит. Я попытался переписать его, но переписанная версия тоже по какой-то причине не работает, и я предполагаю, что эта текущая проблема также связана с этим. Я думаю, что входные данные поступают не через прямой метод, как я думаю. Мое предположение состоит в том, что вызов x = self.model(x) не запускает » x » через все отредактированные слои, которые я создал, иначе я бы получил то же поведение с двумя версиями метода forward, приведенными выше. Но тогда мой вопрос в том, что происходит, когда я звоню self.model(x) вперед? Это запуск ввода через оригинальный vgg16 от pytorch? Потому что, когда я печатаю self.model в своей консоли, она показывает изменения, которые я внес в архитектуру self.model.features , а также self.model.avgpool и self.model.classifier .

Edit:

Below is the entire trace of the error. Some extra information. t is a class I made to deal with the training steps (so looping through training and validation modes, ect)

 ---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
<ipython-input-7-0b3983ae9702> in <module>
     77                   print_cl_met = True
     78                   )
---> 79 model = t.run()
     80 t.save_to_json()
     81 print(np.max(np.array(t.f1_tracker)))

/home/stevea/treesat/TreeSat/TreeSat/trainers/basetrainer.py in run(self)
    342             for phase in ['training', 'testing']:
    343                 self.phase = phase
--> 344                 self.model_mode()
    345 
    346                 if self.phase == 'testing':

/home/stevea/treesat/TreeSat/TreeSat/trainers/basetrainer.py in model_mode(self)
    154         if self.phase == 'training':
    155             print('*********TRAINING PHASE*********')
--> 156             self.trainModel()
    157         else:
    158             print('*********VALIDATION PHASE*********')

/home/stevea/treesat/TreeSat/TreeSat/trainers/basetrainer.py in trainModel(self)
    234         # loop through all batches to perform an epoch
    235         for loaded in self.loaders[self.phase]:
--> 236             epoch_loss = self.train_step(loaded, epoch_loss)
    237 
    238         mean_loss = np.mean(np.array(epoch_loss))

/home/stevea/treesat/TreeSat/TreeSat/trainers/basetrainer.py in train_step(self, loaded, epoch_loss)
    262 
    263         # process batch through network
--> 264         self.out = self.model(self.img_batch.float())
    265 
    266         # get loss value

/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py in _call_impl(self, *input, **kwargs)
    887             result = self._slow_forward(*input, **kwargs)
    888         else:
--> 889             result = self.forward(*input, **kwargs)
    890         for hook in itertools.chain(
    891                 _global_forward_hooks.values(),

/home/stevea/treesat/TreeSat/TreeSat/models/vgg.py in forward(self, x)
    143         x = self.model.features(x)
    144         x = self.model.avgpool(x)
--> 145         x = self.model.classifier(x)
    146         return x
    147 

/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py in _call_impl(self, *input, **kwargs)
    887             result = self._slow_forward(*input, **kwargs)
    888         else:
--> 889             result = self.forward(*input, **kwargs)
    890         for hook in itertools.chain(
    891                 _global_forward_hooks.values(),

/usr/local/lib/python3.6/dist-packages/torch/nn/modules/linear.py in forward(self, input)
     92 
     93     def forward(self, input: Tensor) -> Tensor:
---> 94         return F.linear(input, self.weight, self.bias)
     95 
     96     def extra_repr(self) -> str:

/usr/local/lib/python3.6/dist-packages/torch/nn/functional.py in linear(input, weight, bias)
   1751     if has_torch_function_variadic(input, weight):
   1752         return handle_torch_function(linear, (input, weight), input, weight, bias=bias)
-> 1753     return torch._C._nn.linear(input, weight, bias)
   1754 
   1755 

RuntimeError: mat1 dim 1 must match mat2 dim 0
 

Я также пытался распечатать форму x на каждом шаге прямого метода:

 def forward(self, x):
        x = self.model.features(x)
        print(x.shape)
        x = self.model.avgpool(x)
        print(x.shape)
        x = self.model.classifier(x)
        print(x.shape)
        return x
 

И это показывает мне, что формы кажутся прекрасными, так как классификатор должен учитывать 512 функций:

 torch.Size([64, 512, 4, 4])
torch.Size([64, 512, 1, 1])
 

Комментарии:

1. можете ли вы добавить в сообщение точное сообщение об ошибке трассировку стека?

2. Хорошо, я добавил правку, и я также думаю, что знаю, почему возникает ошибка (я думаю, что мне нужно сгладить x ее перед переходом на Linear слой? Но это все еще не совсем проясняет, что происходит, когда я использую первый прямой метод, когда я только вызываю self.model(x) . Это просто игнорирует все мои правки, когда я делаю это, и запускаю ввод через ванильный vgg16 из pytorch?

3. На самом деле нет, я попытался добавить выравнивание, но ошибка остается: RuntimeError: mat1 and mat2 shapes cannot be multiplied (1x32768 and 512x2)

Ответ №1:

Я не могу запустить ваш код, но я считаю, что проблема в том, что линейные слои ожидают ввода 2d-данных (поскольку на самом деле это матричное умножение), в то время как вы предоставляете ввод 4d (с затемнениями 2 и 3 размера 1).

Пожалуйста, попробуйте сжать

 def forward(self, x):
        x = self.model.features(x)
        x = self.model.avgpool(x)
        x = torch.squeeze(x)
        x = self.model.classifier(x)
        return x
 

Для получения менее хакерского кода в части сжатия см. раздел torch einops.

Комментарии:

1. Да, это сработало. Спасибо! Тем не менее, я все еще нахожу немного странным, что, когда я позвонил в self.model(x), эта проблема не возникла.

2. vgg16 вперед-это нормально, это Vgg вперед, что было проблематично (и вызывает vgg16 внутри.