Интеллектуальный анализ данных, машинное обучение: прогнозирование кликов с помощью Logit

#machine-learning #data-mining

#машинное обучение #интеллектуальный анализ данных

Вопрос:

Я новичок в ml. У меня есть задача по прогнозированию вероятности клика с учетом пользовательской информации, такой как город, штат, версия ОС, семейство ОС, устройство, семейство браузеров, версия браузера, город и т. Д. Мне рекомендовали попробовать logit, поскольку logit, похоже, тоже используют MS и Google. У меня есть несколько вопросов относительно логистической регрессии, например:

Click и non click — очень и очень несбалансированный класс, и простые прогнозы glm выглядят не очень хорошо. Как заставить данные работать с этим?

Все переменные, которые у меня есть, являются категориальными, и такие вещи, как устройство и город, могут быть многочисленными. Также частота появления некоторых устройств или некоторых городов может быть очень низкой. Итак, как справиться с тем, что я могу назвать очень случайным разнообразием категориальных переменных?

Одной из переменных, которые мы получаем, также является идентификатор устройства. Это уникальная функция, которая может быть преобразована в идентификатор пользователя. Как использовать его в logit, или его следует использовать в совершенно другой модели, основанной на идентификаторе пользователя?

Комментарии:

1. Рассмотрите возможность переноса этого в datascience.stackexchange.com

2. размещено там, спасибо!