#machine-learning #time-series #data-science
#машинное обучение #временные ряды #наука о данных
Вопрос:
Я хотел бы задать вам несколько предложений по проблеме прогнозирования временных рядов. В частности, я должен ежедневно прогнозировать общую потребность в воде в определенной области, создавая модель на основе 4 файлов CVSs, содержащих:
- потребность в воде в агрегированной форме (временные ряды с ежедневной детализацией, данные за 2 года)
- количество воды, поступающей в резервуар района (временные ряды с ежедневной детализацией, данные за 2 года)
- количество воды, выходящей из резервуара области (временные ряды с ежедневной детализацией, данные за 2 года)
- запрос воды из 4000 точек измерений по всей области (временные ряды с ежедневной детализацией, данные за 2 года).
По вашему мнению, какая модель является наилучшей для хорошего прогнозирования потребности в воде в данном районе с использованием доступных данных и функций? Я могу думать только о LSTM или MLP, я не знаю, может ли что-то вроде ARIMA или (SARIMA) быть полезным в этом случае, поскольку у меня много функций, но не так много дней. Заранее благодарю вас за помощь 🙂
Ответ №1:
Прогнозирование неизбежно является проблемой, специфичной для конкретной предметной области, потому что вы часто можете принимать лучшие решения о модели и методах, когда знаете что-то о системе или процессе, которые пытаетесь спрогнозировать.
Существует довольно много научных работ по прогнозированию внутреннего спроса на воду, которые вы могли бы просмотреть, если у вас есть доступ:
Например.
- Прогнозирование спроса для систем распределения воды Ченом и Боччелли (2014)
- Прогнозирование спроса на воду в городах: обзор методов и моделей от Donkor et al (2014)
- Прогнозирование спроса на воду: обзор используемых методов и будущих возможностей де Соуза Гроппо и др. al (2019)
Я не эксперт в этой области, поэтому вам, вероятно, следует подождать кого-то, кто ответит на вопрос, но я думаю, что использование авторегрессионной модели (например, ARIMA), как вы предложили, является хорошим началом, потому что спрос в основном обусловлен совокупной деятельностью человека, которая по своей сути обусловлена ежедневными /еженедельные процедуры и сезонные эффекты.
Существуют различные процедуры для подгонки таких моделей к данным. У Джейсона Браунли есть хороший учебник по использованию пакета statsmodels.tsa Python.
Вы также можете посмотреть, что люди использовали для прогнозирования потребления энергии в жилых помещениях, поскольку проблема, вероятно, очень похожа на прогнозирование спроса на воду.