#linear-regression #missing-data #imputation #data-wrangling
#линейная регрессия #отсутствуют данные #вменение #перебор данных
Вопрос:
Я очистил веб-сайт недвижимости и хотел бы вменить недостающие данные по общей площади (около 40% отсутствует), используя линейную регрессию. Я добиваюсь наилучших результатов, используя цену, количество комнат, спален, ванных комнат и туалетных комнат.
Добавление цены к информации о номере имеет существенное значение. Это имеет смысл, поскольку само по себе количество комнат не дает вам никакой информации о том, насколько большими могут быть эти комнаты. Цена может уменьшить некоторую часть этой неопределенности. Разница в 20 баллов между оценками R ^ 2 модели, которая включает цену, и той, которая исключает цену (0,62 против 0,82).
Проблема, которую я вижу, заключается в том, что моя окончательная модель, вероятно, также будет линейной регрессией с ценой в качестве цели. При этом кажется неправильным включать цену в прогноз общей площади для вменения. Как следствие, моя окончательная модель будет выглядеть лучше, но я разработаю синтетическую корреляцию. Это особенно важно, поскольку около 40% значений необходимо заменить.
Кто-нибудь с этим не согласен? Должен ли я использовать цену в качестве предиктора для вменения пропущенных значений, даже если она будет целью моей окончательной модели?
Комментарии:
1. Я думаю, вам может понадобиться задать это в stats.stackexchange.com вместо
2. Спасибо за комментарий, я также опубликую его там.
Ответ №1:
Исходя из контекста, я думаю, вы говорите о ценах на отели?
Исходя из моего опыта, вменение пропущенных значений для ваших значений предиктора, это действительно может значительно повысить баллы R ^ 2, однако, чем больше вы вменяете предиктор, тем меньше у вас наблюдений, и, следовательно, будет предвзято делать вывод о более широкой картине цен на отели, поскольку вы, возможно, никогда не узнаете, существуют ли ненаблюдаемые цены на отели с большим разбросом, верно?
Комментарии:
1. Да, это цены на недвижимость, так что по сути одно и то же. Как насчет того факта, что я использую цель в качестве 1 из 6 предикторов для прогнозирования вменяемых значений? Вы видите в этом проблему или нет?
2. Точность линейной регрессии может варьироваться в зависимости от ваших предсказателей и наблюдений, если 1 из 6 предсказателей может дать вам хорошую модель прогнозирования, то я думаю, что это вообще не проблема, это просто означает, что предсказатель достаточно хорош, чтобы предсказать цены
3. Еще 1. если в значениях вашего ответа много пропущенных значений, я думаю, линейная регрессия не подойдет, поскольку для нее нужны не пропущенные значения, в этом случае вы можете использовать то, что называется регрессией tobit, поскольку она допускает пропущенные значения при моделировании путем цензурирования некоторых значений
4. Спасибо за совет, я еще не слышал о tobit regression. Однако, я думаю, что, возможно, я недостаточно ясно объяснил ситуацию. Что я пытаюсь сделать, так это выполнить множественную линейную регрессию для прогнозирования цен на жилье. Одна из моих функций, общая площадь в квадратных футах, имеет около 40% пропущенных значений. Однако не пропущенные значения очень хорошо коррелируют с целевой ценой, вот почему я хотел бы сохранить.
5. Я думаю, что это хорошо, независимо от того, коррелирует это или нет, в чем проблема?