Python выбирает переменные в множественной линейной регрессии

#python #linear-regression

#python #линейная регрессия

Вопрос:

У меня есть зависимая переменная y и 6 независимых переменных. Я хочу сделать из этого линейную регрессию. Для этого я использую библиотеку sklearn.

Проблема в том, что некоторые из моих независимых переменных имеют корреляцию более 0,5. Поэтому я не могу использовать их в своей модели одновременно

Я искал в Интернете, но не нашел никакого решения для выбора наилучшего набора независимых переменных для построения линейной регрессии и вывода выбранных переменных.

Комментарии:

1. Одна из возможностей состоит в том, чтобы сначала попробовать подгонку по всем переменным, а затем удалить из регрессии переменную с наименьшим значением, а затем повторно запустить, чтобы посмотреть, что произойдет с результатами подгонки. Этот тест прост в выполнении и может помочь в вашей аналитической работе.

Ответ №1:

Если вы видите, что у вас есть корреляция между независимыми переменными. Вам следует подумать о том, чтобы удалить их.

Я вижу, вы работаете с scikit-learn. Если вы не хотите выполнять какой-либо выбор объектов вручную, вы всегда можете использовать один из методов выбора объектов в scikit-learns feature_selection module. Существует много способов автоматического удаления компонентов, и вам следует выполнить перекрестную проверку, чтобы определить, какой из них лучше всего подходит для вашей проблемы.

Комментарии:

1. Я знаю, что не должен использовать две переменные, которые коррелируют, но я не знаю, какую из этих переменных нужно удалить, чтобы получить лучшую строку reg. И я перешел по ссылке на документацию sklearn, но не нашел никакого решения для корреляции

2. Вы не знаете этого заранее. Вы можете выяснить это, только выполнив перекрестную проверку.

Ответ №2:

Вероятно, вы ищете k-кратную модель проверки.

Идея состоит в том, чтобы случайным образом выбирать ваши функции и иметь способ сопоставлять их друг с другом.

Идея состоит в том, чтобы обучить вашу модель выбору объекта на (k-1) разделах ваших данных. И проверьте его на соответствие последнему разделу. Вы делаете это для каждого раздела и берете среднее значение вашего балла (например, MAE / RMSE)

Ваша оценка — это объективный показатель для сравнения ваших моделей, иначе говоря, выбранных вами функций