#python #missing-data #categorical-data #imputation #bins
#python #отсутствует-данные #категориальный-данные #вменение #ячейки
Вопрос:
У меня есть набор данных с некоторыми отсутствующими данными. Отсутствующие данные являются категориальными и представлены ячейками (пожалуйста, смотрите Пример ниже: ‘purchase_price’, ‘customer_income’ и т.д.). Каков наилучший подход для вменения таких данных?Должен ли я сначала преобразовать ячейки? Так или иначе, не удается найти какие-либо рекомендации в Интернете.
purchase_price | trade_in | vehicle_finacing | customer_age | customer_income |
---|---|---|---|---|
15001-20000 | 1 | 1 | 21 — 30 | 40001-60000 |
15001-20000 | 0 | 0 | 51-60 | 0-20000 |
25001 — 30000 | 1 | 1 | 41-50 | 60001-80000 |
10001 — 15000 | 0 | 1 | 21-30 | 60001-80000 |
25001 — 30000 | 1 | 1 | 31-40 | 120000-140000 |
Комментарии:
1. Попробуйте разделить столбцы bin на 2 отдельных столбца, например: purchase_price_start и purchase_price_end, затем попробуйте приписать каждый столбец отдельно
2. Я не рекомендую приписывать каждому отдельному столбцу медиану или пытаться удалить саму строку, если ваш набор данных достаточно велик.