Включение точки (0,0) в линейную регрессию в R

#r #regression

#r #регрессия

Вопрос:

Я запустил простую линейную регрессию в R с двумя переменными и получил следующее соотношение:

y = 30000 1,95x

Что достаточно справедливо. Меня беспокоит только то, что практически точка (0,0) должна быть включена в модель.

Могу ли я получить какую-либо математическую помощь, пожалуйста?


Набор данных

Мне нужно было как-то опубликовать данные … и вот они. Теперь это даст лучший подход к проблеме.

Доступно больше таких наборов данных. Это данные, собранные для маркетинговой стратегии.

Цель состоит в том, чтобы получить соотношение между продажами и расходами, чтобы мы могли предсказать сумму расходов, которая нам нужна для получения определенного объема продаж.

Любая помощь будет оценена.

Комментарии:

1. Вы хотите добавить точку (0,0) в качестве точки данных в регрессии или принудительно провести подобранную кривую через начало координат?

2. В качестве точки данных.. Но тогда, похоже, это нигде не согласуется с другими данными…

3. Не могли бы вы, пожалуйста, опубликовать ссылку на данные?

4. Ежемесячные расходы на продажи кампании 17 августа 120499 327341 17 сентября 168666 548424 17 октября 334308 978437 17 ноября 311963 885522 17 декабря 275592 696238 18 января 405845 1268859 18 февраля 399824 1054429 18 марта 343622 1193147 18 апреля 619030 1118420,13 18 мая 541674 985816,35 18 июня 701460 1263009.84 18 июля 957681 1960920.65 18 августа 479050 1240943.9 18 сентября 552718 1821106.45 18 октября 633517 1959944.43 18 ноября 527424 2351679.84 18 декабря 1050231 2419749.31 19 января 583889 2104677.16 19 февраля 322356 1373471.1

5. Для меня этого достаточно, спасибо — смотрю на это сейчас.

Ответ №1:

Это не ответ, а скорее комментарий с графикой.

Я преобразовал данные за месяц в «истекшие месяцы», начиная с 1 в качестве первого месяца, затем 2, затем 3 и т.д. Это позволило мне просмотреть данные в 3D, и, как вы можете видеть из диаграммы рассеяния 3D ниже, как расходы, так и продажи связаны с количеством прошедших месяцев. Я также масштабировал финансовые данные в тысячах, чтобы мне было легче читать графики.

Я подгоняю данные к простому уравнению плоской поверхности вида «z = f (x, y)», как показано ниже, поскольку это уравнение было предложено мне диаграммой рассеяния. Моя подгонка этих данных дала мне уравнение

 Sales (thousands) = a   b * Months   c * Spend(thousands)
  

с подобранными параметрами

 a = 2.1934871882483066E 02
b = 6.3389747441412403E 01
c = 1.0011902575903093E 00
  

для следующих данных:

 Month Spend Sales

1 120.499 327.341
2 168.666 548.424
3 334.308 978.437
4 311.963 885.522
5 275.592 696.238
6 405.845 1268.859
7 399.824 1054.429
8 343.622 1193.147
9 619.030 1118.420
10 541.674 985.816
11 701.460 1263.009
12 957.681 1960.920
13 479.050 1240.943
14 552.718 1821.106
15 633.517 1959.944
16 527.424 2351.679
17 1050.231 2419.749
18 583.889 2104.677
19 322.356 1373.471
  

диаграмма рассеяния

Поверхность

Комментарии:

1. Большое вам спасибо за эти усилия. Но в идеале месяц вообще не играет никакой роли в продажах…

2. Я понимаю. Если это «20-й месяц» (чтобы у вас были приведенные выше данные) и на деловой встрече задается вопрос: «Если мы потратим X долларов в следующем месяце, каковы ожидаемые продажи?» с помощью этой модели вы могли бы как дать точный ответ, так и доказать эту точность. Демонстрация этого была одной из причин моего ответа.

3. Да, в чем-то это хорошая точка … я попытаюсь подогнать ее и посмотреть, работает ли прогноз для других наборов данных

4. Не повезло 🙁 … Зависимость линейна и очень ясна … единственная проблема заключается в том, что когда сумма расходов равна 0, продажи должны быть равны 0… которая не удовлетворяется моделью…

5. Может ли быть так, что расходы и продажи имеют дополнительный, пока еще не смоделированный компонент временной задержки, когда люди обдумывают решения о покупке? То есть влияют ли расходы в этом месяце на будущие продажи? Это повлияло бы на точность точки данных (0,0) таким образом, что нулевые расходы в этом месяце напрямую не привели бы к нулевым продажам в этом месяце.

Ответ №2:

если вы хотите включить точку (0,0) в свою линию регрессии, это будет означать установку перехвата равным нулю. В R вы можете достичь этого путем

 mod_nointercept <- lm(y ~ 0   x)
  

В этой модели установлена только бета-версия. И альфа (т. е. перехват равен нулю).

Комментарии:

1. Я спросил в комментариях к вопросу, следует ли использовать точку (0,0) в качестве точки данных или если кривая должна проходить через начало координат, ответ OP повлияет на ваш ответ.

2. @Cettt Спасибо вам за вклад.

3. Я привел набор данных. Есть ли еще какая-нибудь удача?

4. Это было лучшее решение, которое я смог найти для этой проблемы. Спасибо!