#python #machine-learning #random-forest
#python #машинное обучение #случайный лес
Вопрос:
Я хочу реализовать случайный лес, чтобы предсказать, какие клиенты будут «кончеными», а какие клиенты будут «постоянными».
У меня есть данные для клиентов, которые уже ушли или все еще там (это просто мое воображение, никаких реальных данных о клиентах).
Теперь у меня есть пара столбцов, которые выглядят так:
CustomerNR | Email (Y/N) | Age | Water Usage (in l) | How did we Contact them?
1 | Yes | 20-30 | 1000l | Mail
2 | No | 50-70 | 500l | Telephone
3 | Yes | 40-50 | 1099l | NAN
С чего бы мне начать с этого?
Я действительно неопытен и не нахожу учебные пособия в Интернете полезными, потому что они всегда содержат цифры, такие как прогнозы погоды и т. Д.
У меня в моем наборе данных 200 тыс. «клиентов», и я хотел бы знать, есть ли хороший учебник для этого или хотя бы несколько направлений, куда я мог бы пойти.
Комментарии:
1. Добро пожаловать в SO! Будьте ленивы и используйте удивительный scikit . Вот официальная документация по теме его реализации. Если вы новичок в ML, я бы посоветовал вам больше сосредоточиться на части «перебора» данных, в противном случае реализация случайного леса с помощью scikit составляет всего 1 или 2 строки!
2. @DaveIdito … но категориальные функции должны быть однократно закодированы