Вменение временных рядов с использованием аналогичных временных рядов

#machine-learning #time-series #missing-data #forecasting #imputation

#машинное обучение #временные ряды #отсутствует -данные #прогнозирование #вменение

Вопрос:

У меня проблема, когда у меня много данных о записях термостатов за 1 год, где каждый час он дает мне среднюю температуру в этом домохозяйстве. Но много данных недоступно из-за того, что они установили термостат только в середине года или отключили термостат на неделю или… Но многие данные этого термостата действительно похожи. То, что я хочу сделать, это вменить недостающие данные, используя аналогичные временные ряды.

Итак, допустим, дом A начался только в июле, но оттуда они очень похожи на домохозяйство B, я бы хотел затем использовать информацию из домохозяйства B, чтобы предсказать, какими будут данные до июля в доме A.

Я думал об обучении рекуррентной нейронной сети, которая могла бы сделать это за меня, но я не уверен, что для этого есть, и когда я ищу документы и тому подобное, они почти исключительно работают с наборами данных за несколько лет и вменяют данные, используя данные за предыдущие годы. У меня нет этих данных, так что это не вариант.

Кто-нибудь знает, как решить эту проблему, или я мог бы использовать ссылку, которая решает аналогичную проблему?

Комментарии:

1. Не могли бы вы поделиться некоторыми данными?

Ответ №1:

Насколько я понимаю, вы хотите вменить данные, используя данные поперечного сечения, а не информацию о временных рядах.

На самом деле существует довольно много пакетов вменения, которые могут сделать это за вас в R. (если вы используете R)

Вам понадобятся данные с одинаковым интервалом. Итак, 1 значение в час, и если его нет, то оно должно быть NA. Таким образом, в идеале у вас есть несколько временных рядов качественной длины.

Затем вы объединяете эти временные ряды в соответствии с отметкой времени / час.

После этого вы можете применить пакет вменения, например mice , missForest , imputeR , в основном с одной строкой кода. Эти пакеты будут использовать корреляции между различными временными рядами для оценки недостающих значений в этих рядах.