Многочисленные проблемы с логистической регрессией (1. все значения CV имеют одинаковую оценку, 2. отчет о классификации и точность не совпадают)

#python #machine-learning #scikit-learn #logistic-regression #sklearn-pandas

Вопрос:

Я реализовал логистическую регрессию на данных о банковских кредитах. Я использовал GridSearchCV для настройки гиперпараметров и реализовал логистическую регрессию с несколькими папками = [3,5,6] это мой код

 import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#from google.colab import files
import io

import warnings
warnings.filterwarnings('ignore')
#uploaded = files.upload()

df = pd.read_csv('CleanedLoanData13Cols.csv')

from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

X = df.drop('loan_status', axis=1, inplace=False)
y = df['loan_status']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 4)
parameters = {'penalty': ['l1', 'l2','elasticnet'],
                  'C': [0.001, 0.01, 0.1, 1, 10, 100, 1000],
                  'solver' : ['liblinear', 'newton-cg', 'lbfgs', 'saga', 'sag'],
                  'multi_class' : ['auto'],
                  'max_iter'    : [5,15,25]
                 }

import warnings
warnings.filterwarnings("ignore")

cv_folds = [3, 5, 6]
s_scaler = StandardScaler()
#m_scaler = MinMaxScaler()
#r_scaler = RobustScaler()
s_scaled_X_train = s_scaler.fit_transform(X_train)
s_scaled_X_test = s_scaler.transform(X_test)

for x in cv_folds:
    logmodel = GridSearchCV(LogisticRegression(random_state = 42), parameters, cv = x, scoring = 'accuracy', refit = True)
    logmodel.fit(X_train, y_train)
    
    print('The best score with CV =', x, 'is', logmodel.score(X_test, y_test), 'with parameters =nn', logmodel.best_params_, 'nn')
 

вывод: (первый вопрос: мне это показалось неправильным! поправьте меня, если я ошибаюсь?)

 The best score with CV = 3 is 0.929636746271388 with parameters =

 {'C': 0.001, 'max_iter': 25, 'multi_class': 'auto', 'penalty': 'l2', 'solver': 'liblinear'} 

The best score with CV = 5 is 0.929636746271388 with parameters =

 {'C': 0.001, 'max_iter': 25, 'multi_class': 'auto', 'penalty': 'l2', 'solver': 'liblinear'} 


The best score with CV = 6 is 0.929636746271388 with parameters =

 {'C': 0.001, 'max_iter': 25, 'multi_class': 'auto', 'penalty': 'l2', 'solver': 'liblinear'} 
 

продолжение

 results = logmodel.cv_results_

print(results.get('params'))

print(results.get('mean_test_score'))
 

выход:

 [0.9084348         nan        nan 0.8323203         nan 0.83239873
 0.83671225 0.8323203  0.8323203  0.8323203         nan        nan
        nan        nan        nan 0.91647373        nan        nan
 0.8323203         nan 0.902435   0.89474906 0.8520445  0.8323203 and so on
 

продолжение:

 print(results.get('mean_train_score'))
 

вывод: Нет

 print(logmodel.best_params_)
 

{«C»: 0,001, «max_iter»: 25, «мультикласс»: «авто», «штраф»: «l2», «решатель»: «линейный»}

 print(logmodel.best_score_)
 

вывод: 0.9226303384209481 (я думаю, что здесь тоже что-то не так, потому что это и точность в отчете о классификации не совпадают)

 final_model = logmodel.best_estimator_

s_predictions = final_model.predict(s_scaled_X_test)

from sklearn.metrics import classification_report, confusion_matrix, plot_confusion_matrix

print(classification_report(y_test, s_predictions))
print(confusion_matrix(y_test, s_predictions))
 

вывод: точность здесь составляет 0,62, тогда как вверху-92

 precision    recall  f1-score   support

           0       0.88      0.64      0.74      9197
           1       0.22      0.53      0.31      1732

    accuracy                           0.62     10929
   macro avg       0.55      0.59      0.53     10929
weighted avg       0.77      0.62      0.67     10929

[[5902 3295]
 [ 812  920]]
 

Я не знаю, где я ошибся? Я ломал голову над этим последние несколько часов и не могу понять, где я ошибся? Был бы действительно благодарен, если бы кто-нибудь внес свой вклад в это?

Ответ №1:

Проблема здесь в том, что вы подгоняете свою модель под данные X_train, y_train без масштаба .

 logmodel.fit(X_train, y_train)
 

Затем вы пытаетесь спрогнозировать масштабированные данные s_scaled_X_test , которые объясняют это падение производительности.

 s_predictions = final_model.predict(s_scaled_X_test)
 

Чтобы исправить это, вам следует обучить свою модель с использованием масштабированных данных следующим образом:

 logmodel.fit(s_scaled_X_train, y_train)
 

Комментарии:

1. Большое вам спасибо, но лучший результат с CV = [3,5,6] все тот же, но на этот раз я получил- «0,9385122152072468». всплывает то же значение. Есть ли этому какое-нибудь объяснение?

2. Это можно объяснить моделью. LogisticRegression это решение задачи наименьших квадратов. Следовательно, вы достигаете минимума этой функции.