Как работать с переменной с переопределенным значением? (например: в основном нули)

#regression #feature-selection

#регрессия #выбор функции

Вопрос:

Я работаю над проблемой регрессии (я пробовал как линейную регрессию, так и регуляризацию, такую как Elasticnet, и случайный лес для анализа этих данных).

Моя цель — выбрать наиболее важные функции (как каждая функция способствует объяснению цели).

Некоторые функции, по-видимому, не имеют реального значения в модели.

Однако в основном это также объекты с большим количеством значений = 0 (т. е. Для X1, X1 = 0 для 1400 человек и X1 = 1 для 200 человек). Интересно, может ли это быть причиной того, что эти функции кажутся неважными?

Вы знаете способ это проверить ?

Примечание: Я вообще не говорю о пропущенных значениях, у нас есть информация: 0 — это значение.

Ответ №1:

Я нашел несколько ссылок о чрезмерной выборке, которые могут мне помочь :

https://imbalanced-learn.org/stable/over_sampling.html

https://imbalanced-learn.org/stable/generated/imblearn.over_sampling .SMOTE.html

(с несбалансированным пакетом -learn)