Перекрестная проверка — Метод масштабирования, не применяемый в конвейере

#scikit-learn #pipeline #cross-validation

Вопрос:

У меня возникла проблема при выполнении перекрестной проверки с помощью Scikit Learn. Я построил конвейер, состоящий из 2 элементов: масштабирующего устройства и регрессионной модели.

Моя проблема в том, что я обнаружил, что метод масштабирования, который я настроил в конвейере, не применялся (т. Е. Не учитывался) во время вычислений.

Пожалуйста, проверьте мой блокнот и скажите, что не так. Вот ссылка: https://colab.research.google.com/drive/1KHqHsDHNkGLj4e0u-EWY9oj00NXeO5u3?usp=sharing

А вот также ссылка на набор данных, который я использовал: https://drive.google.com/file/d/1nyx0BitzxBLQjsAAAxfHt-9SzKqk9dWv/view?usp=sharing

С уважением.

Комментарии:

1. Пожалуйста, вставьте код (минимального воспроизводимого примера) в текст вопроса.

2. Пожалуйста, предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.

3. Код полный, хорошо детализированный, и любой может воспроизвести проблему. Кроме того, моя озабоченность хорошо объяснена.

Ответ №1:

Применяется масштабирующее устройство. Масштабирование не влияет на непенализированную линейную регрессию, поэтому ожидается, что результаты перекрестной проверки будут одинаковыми. Сравните с Lasso тем , где масштабирование имеет значение.

Комментарии:

1. Ben. Чтобы показать вам разницу, я масштабировал свои данные, а затем настроил новый конвейер (это конвейер2). Оценка, которую я наконец получил, полностью отличается от первоначальной (еще раз проверьте записную книжку). В чем была проблема с моим первым конвейером?

2. В новом подходе вы y также масштабируете значения (чего не происходит в конвейерном подходе). Полученная модель по-прежнему отражает ту же взаимосвязь, но метрика масштабируется соответствующим образом.

3. Я не могу понять, почему «y» не нужно масштабировать, в отличие от x. В любом случае, что не так с моим подходом к кодированию, моими конвейерами, моими показателями. Не могли бы вы, пожалуйста, внести некоторые изменения в записную книжку, чтобы я мог увидеть хороший подход и лучшие практики.