Линейная регрессия для вменения недостающих значений pandas python

#python #pandas #dataframe #linear-regression #categorical-data

Вопрос:

Я пытаюсь использовать подход линейной регрессии с категориальной переменной. Поэтому я считаю, что лучше всего использовать подход, основанный на манекенах. Я знаю, что в delivery_cost столбце моего набора данных существуют некоторые отсутствующие значения. Через is.null() Я обнаружил, что есть 17 значений, которые отсутствуют.

Я знаю, что стоимость доставки линейно зависит (по-разному для каждого филиала магазина, например, Sunshine, Footscray и т. Д.)

  • ветви уже отображаются в столбце store_id, дискретная переменная
  • dist_to_nearest_storehouse-это непрерывная переменная
  • времена года-это дискретная переменная ( следовательно,сезоны Лето,Весна,Зима, Осень будут рассматриваться как фиктивные).

Мне также нужно быть осторожным, так как isloyaltyпрограмма ( 0 — не часть лояльности , 1 — часть лояльности ) стоимость доставки со скидкой 10%

Сначала мне было интересно, будет ли использование линейной регрессии правильным подходом для поиска недостающих значений.

В настоящее время я использую pandas для чтения csv-файла, который можно найти в текстовом файле https://paste.pythondiscord.com/raw/uvadaroyoj

Если бы кто-нибудь мог дать мне какое-то руководство по коду, я бы с удовольствием прочитал об этом.

Спасибо.

Комментарии:

1. Любая помощь будет приветствоваться !

2. Не стесняйтесь комментировать, чтобы я мог отредактировать вопрос для большей ясности

Ответ №1:

Насколько я понимаю вопрос, вы пытаетесь предсказать недостающие значения на основе других переменных (dist_to_nearest_storehouse, сезон, isLoyaltyProgram). Итак, какая модель вы используете, зависит от ваших данных и вашей гипотезы: если вы считаете, что все переменные имеют линейную связь с y, то вы можете использовать линейную регрессию, если нет, вы можете использовать модели, которые могут соответствовать нелинейным данным (SVM, деревья решений, нейронные сети). Но лично для 17 пропущенных значений я бы просто отбросил их, если бы они не составляли большую часть моего объема выборки.

Комментарии:

1. да, это правильно, мне было интересно, могу ли я использовать это heartbeat.fritz.ai/…

2. Да, я верю, что ты можешь это сделать.

3. Поскольку я знаю, что isLoyaltyProgram определяет, следует ли применять скидку или нет, не должен ли я включать это в свои функции?

4. Извините , что перефразирую свой вопрос, но если у клиента есть лояльность, он получает скидку 10% на стоимость доставки ^ Я знаю, что это правда, не должен ли я включать это в функции

5. Я считаю, что вам следует это сделать, потому что функция «лояльная программа» влияет на стоимость доставки. Если вы считаете, что у них есть отношения, вам следует включить это в свои функции.