Как реализовать случайный лес с большим количеством категориальных столбцов?

#python #machine-learning #random-forest

#python #машинное обучение #случайный лес

Вопрос:

Я хочу реализовать случайный лес, чтобы предсказать, какие клиенты будут «кончеными», а какие клиенты будут «постоянными».

У меня есть данные для клиентов, которые уже ушли или все еще там (это просто мое воображение, никаких реальных данных о клиентах).

Теперь у меня есть пара столбцов, которые выглядят так:

 CustomerNR | Email (Y/N) | Age   | Water Usage (in l) | How did we Contact them?
1          | Yes         | 20-30 | 1000l              | Mail
2          | No          | 50-70 | 500l               | Telephone
3          | Yes         | 40-50 | 1099l              | NAN
  

С чего бы мне начать с этого?
Я действительно неопытен и не нахожу учебные пособия в Интернете полезными, потому что они всегда содержат цифры, такие как прогнозы погоды и т. Д.

У меня в моем наборе данных 200 тыс. «клиентов», и я хотел бы знать, есть ли хороший учебник для этого или хотя бы несколько направлений, куда я мог бы пойти.

Комментарии:

1. Добро пожаловать в SO! Будьте ленивы и используйте удивительный scikit . Вот официальная документация по теме его реализации. Если вы новичок в ML, я бы посоветовал вам больше сосредоточиться на части «перебора» данных, в противном случае реализация случайного леса с помощью scikit составляет всего 1 или 2 строки!

2. @DaveIdito … но категориальные функции должны быть однократно закодированы