Встроенная функция обучения работает намного лучше, чем пользовательская функция обучения

#python #numpy #linear-regression #gradient-descent

Вопрос:

Я пытаюсь обучить модель линейной регрессии для прогнозирования цен на жилье. Я попробовал использовать три метода.

  1. Пользовательский алгоритм градиентного спуска
  2. Пользовательский алгоритм нормального уравнения
  3. Встроенные функции, предоставляемые sklearn

Я оценил все три модели с помощью значения r-квадрат, и они выглядят следующим образом:

  1. R-квадрат для пользовательского алгоритма градиента: -4.01
  2. R-квадрат для пользовательского алгоритма normal_equation: -95,38
  3. R-квадрат для алгоритма встроенных функций: 0,54

Теперь я не понимаю, почему значения r-квадрата отрицательны для двух пользовательских алгоритмов. Код представлен следующим образом. Одни и те же данные предоставляются для всех трех методов.

     def hypothesis(self, input_data):
        # input data: (1382, 22), features: (22,), prediction: (1382,)
        prediction = np.matmul(input_data,self.features)
        return prediction
    
    def cost(self, predicted, actual):
        cost = np.sum(np.square(predicted- actual)) / len(predicted) / 2
        # predicted: (1382,), actual: (1382,), cost: float number
        return cost
    
    def gradient_descent(self, alpha, prediction, actual):
        self.features -= alpha * (np.matmul(self.train_x.T,(prediction - actual))) / len(prediction)
        # prediction: (1382,), actual: (1382,), alpha: 0.001, features: (22,)
        
    def normal_equation(self, X, y):
        self.features = np.matmul(np.matmul(np.linalg.inv(np.matmul(X.T, X)), X.T), y)
        #X.shape: (1382, 22), y.shape: (1382,), features: (22,)
        
    def built_in_train(self):
        reg = LinearRegression().fit(self.train_x, self.train_y)
        #train_x: (1382, 22), train_y: (1382,)
        return reg
        
    def train(self, alpha, epoch, normal_equation=False, builtin_function=False):
        if(normal_equation):
            self.normal_equation(self.train_x, self.train_y)
            return None
        elif (builtin_function):
            return self.built_in_train()
        else: 
            for i in range(0, epoch):
                prediction = self.hypothesis(self.train_x)
                cost = self.cost(prediction, self.train_y)
                self.train_cost_history.append(cost)
                self.gradient_descent(alpha, prediction, self.train_y)
            return None