#regression #feature-selection
#регрессия #выбор функции
Вопрос:
Я работаю над проблемой регрессии (я пробовал как линейную регрессию, так и регуляризацию, такую как Elasticnet, и случайный лес для анализа этих данных).
Моя цель — выбрать наиболее важные функции (как каждая функция способствует объяснению цели).
Некоторые функции, по-видимому, не имеют реального значения в модели.
Однако в основном это также объекты с большим количеством значений = 0 (т. е. Для X1, X1 = 0 для 1400 человек и X1 = 1 для 200 человек). Интересно, может ли это быть причиной того, что эти функции кажутся неважными?
Вы знаете способ это проверить ?
Примечание: Я вообще не говорю о пропущенных значениях, у нас есть информация: 0 — это значение.
Ответ №1:
Я нашел несколько ссылок о чрезмерной выборке, которые могут мне помочь :
https://imbalanced-learn.org/stable/over_sampling.html
https://imbalanced-learn.org/stable/generated/imblearn.over_sampling .SMOTE.html
(с несбалансированным пакетом -learn)