#machine-learning #data-mining
#машинное обучение #интеллектуальный анализ данных
Вопрос:
Я новичок в ml. У меня есть задача по прогнозированию вероятности клика с учетом пользовательской информации, такой как город, штат, версия ОС, семейство ОС, устройство, семейство браузеров, версия браузера, город и т. Д. Мне рекомендовали попробовать logit, поскольку logit, похоже, тоже используют MS и Google. У меня есть несколько вопросов относительно логистической регрессии, например:
Click и non click — очень и очень несбалансированный класс, и простые прогнозы glm выглядят не очень хорошо. Как заставить данные работать с этим?
Все переменные, которые у меня есть, являются категориальными, и такие вещи, как устройство и город, могут быть многочисленными. Также частота появления некоторых устройств или некоторых городов может быть очень низкой. Итак, как справиться с тем, что я могу назвать очень случайным разнообразием категориальных переменных?
Одной из переменных, которые мы получаем, также является идентификатор устройства. Это уникальная функция, которая может быть преобразована в идентификатор пользователя. Как использовать его в logit, или его следует использовать в совершенно другой модели, основанной на идентификаторе пользователя?
Комментарии:
1. Рассмотрите возможность переноса этого в datascience.stackexchange.com
2. размещено там, спасибо!