#python #pandas #dataframe #linear-regression #categorical-data
Вопрос:
Я пытаюсь использовать подход линейной регрессии с категориальной переменной. Поэтому я считаю, что лучше всего использовать подход, основанный на манекенах. Я знаю, что в delivery_cost
столбце моего набора данных существуют некоторые отсутствующие значения. Через is.null() Я обнаружил, что есть 17 значений, которые отсутствуют.
Я знаю, что стоимость доставки линейно зависит (по-разному для каждого филиала магазина, например, Sunshine, Footscray и т. Д.)
- ветви уже отображаются в столбце store_id, дискретная переменная
- dist_to_nearest_storehouse-это непрерывная переменная
- времена года-это дискретная переменная ( следовательно,сезоны Лето,Весна,Зима, Осень будут рассматриваться как фиктивные).
Мне также нужно быть осторожным, так как isloyaltyпрограмма ( 0 — не часть лояльности , 1 — часть лояльности ) стоимость доставки со скидкой 10%
Сначала мне было интересно, будет ли использование линейной регрессии правильным подходом для поиска недостающих значений.
В настоящее время я использую pandas для чтения csv-файла, который можно найти в текстовом файле https://paste.pythondiscord.com/raw/uvadaroyoj
Если бы кто-нибудь мог дать мне какое-то руководство по коду, я бы с удовольствием прочитал об этом.
Спасибо.
Комментарии:
1. Любая помощь будет приветствоваться !
2. Не стесняйтесь комментировать, чтобы я мог отредактировать вопрос для большей ясности
Ответ №1:
Насколько я понимаю вопрос, вы пытаетесь предсказать недостающие значения на основе других переменных (dist_to_nearest_storehouse, сезон, isLoyaltyProgram). Итак, какая модель вы используете, зависит от ваших данных и вашей гипотезы: если вы считаете, что все переменные имеют линейную связь с y, то вы можете использовать линейную регрессию, если нет, вы можете использовать модели, которые могут соответствовать нелинейным данным (SVM, деревья решений, нейронные сети). Но лично для 17 пропущенных значений я бы просто отбросил их, если бы они не составляли большую часть моего объема выборки.
Комментарии:
1. да, это правильно, мне было интересно, могу ли я использовать это heartbeat.fritz.ai/…
2. Да, я верю, что ты можешь это сделать.
3. Поскольку я знаю, что isLoyaltyProgram определяет, следует ли применять скидку или нет, не должен ли я включать это в свои функции?
4. Извините , что перефразирую свой вопрос, но если у клиента есть лояльность, он получает скидку 10% на стоимость доставки ^ Я знаю, что это правда, не должен ли я включать это в функции
5. Я считаю, что вам следует это сделать, потому что функция «лояльная программа» влияет на стоимость доставки. Если вы считаете, что у них есть отношения, вам следует включить это в свои функции.