Генерация долгосрочных прогнозов, включая прогноз и временную агрегацию (thief)

#r #forecasting #facebook-prophet #fable-r #tidyverts

#r #прогнозирование #facebook-prophet #fable-r #tidyverts

Вопрос:

Я только начал использовать {fable} и {tidyverts} семейство инструментов, и пока все идет довольно хорошо.

В настоящее время я заинтересован в создании долгосрочных вероятностных прогнозов на основе ежедневных данных (при этом ежемесячное или ежеквартальное разрешение является приемлемым или предпочтительным). Я понимаю, что временная агрегация может помочь уменьшить неопределенность модели, а также распространить известные ежедневные влияния (особенно праздничные эффекты), например, на квартальный уровень, и таким образом повысить точность.

Для ежедневных данных я планирую использовать ковариаты prophet , для более высоких агрегатов (от месячных до годовых) экспоненциальное сглаживание кажется подходящим.

Хотя мне интересно, кажется ли этот подход в целом многообещающим, я не совсем уверен, как структурировать проблему прогнозирования, используя {thief} для получения вероятностных прогнозов.

PS: Я нашел этот полезный пост для почасовых данных, но у меня возникли проблемы с его реализацией для ежедневных данных (например, создание значимых агрегатов и объединение прогнозов): https://stats.stackexchange.com/questions/352121/how-to-forecast-hourly-as-well-as-daily-data-in-r

Ответ №1:

Для создания вероятностных прогнозов с использованием {thief} вам нужно преобразовать fable в {forecast} forecast объект стиля. Базовая минимальная структура forecast объекта (и как ее можно получить из дистрибутива fable, который можно получить для prophet с помощью {fable.prophet} ):

 library(forecast)
library(distributional)
dist <- dist_normal(1:10)

structure(
  list(
    # A time series of the forecast means
    mean = ts(mean(dist)),
    # A matrix time series of the forecast interval's upper bound
    upper = ts(cbind("80%" = quantile(dist, 0.90), "95%" = quantile(dist, 0.975))),
    # A matrix time series of the forecast interval's lower bound
    lower = ts(cbind("80%" = quantile(dist, 0.10), "95%" = quantile(dist, 0.025))),
    # A vector containing forecast interval levels in order of appearance
    level = c(80, 95)
  ),
  class = "forecast"
)
#>    Point Forecast      Lo 80     Hi 80       Lo 95     Hi 95
#>  1              1 -0.2815516  2.281552 -0.95996398  2.959964
#>  2              2  0.7184484  3.281552  0.04003602  3.959964
#>  3              3  1.7184484  4.281552  1.04003602  4.959964
#>  4              4  2.7184484  5.281552  2.04003602  5.959964
#>  5              5  3.7184484  6.281552  3.04003602  6.959964
#>  6              6  4.7184484  7.281552  4.04003602  7.959964
#>  7              7  5.7184484  8.281552  5.04003602  8.959964
#>  8              8  6.7184484  9.281552  6.04003602  9.959964
#>  9              9  7.7184484 10.281552  7.04003602 10.959964
#> 10             10  8.7184484 11.281552  8.04003602 11.959964
 

Создано 2020-12-10 пакетом reprex (версия 0.3.0)

Затем вы можете использовать эти структуры прогнозов thief::reconcilethief() для их согласования.

Тем не менее, в настоящее время разрабатывается временное (и кросс-временное) согласование {fable} . Соответствующая проблема разработки здесь: https://github.com/tidyverts/fabletools/issues/59 Существуют некоторые сложности с согласованием ежедневных или субсуточных временных и месячных и годовых иерархий, которые еще не были реализованы, но прототип в настоящее время хорошо работает для> месячных нижних уровней. В этой недавней презентации на ISF2020 представлена временная сверка с {fable} : https://www.youtube.com/watch?v=6D7rNHZ5E-Qamp;t=1120

Стоит отметить, что интервалы от {thief} — это просто сумма интервалов от более высоких временных частот. Эти интервалы не являются оптимальными и поэтому будут отличаться от оптимальных распределений вероятностных прогнозов, которые будут предоставлены {fable} .

Комментарии:

1. Это превосходно, и я рад попробовать это. В основном из любопытства, каковы дополнительные сложности для еженедельных / ежедневных / субданных данных? Моей наивной первой мыслью было бы, что распределение во временной иерархии будет совершенно ясным? (или речь идет о других возможных типах сезонности?)

2. Типичное построение матриц суммирования, используемых при временном согласовании, определяет, как интервалы с более высокой частотой (1 месяц, 1 квартал и т.д.) Входят в интервал с самой высокой частотой (1 год). Это легко для ежемесячных и квартальных агрегатов, поскольку все точно соответствует гнездам. Недели точно не являются вложенными годами, и поэтому агрегация варьируется от года к году. Способ агрегирования ежедневных данных в годовые (и, следовательно, субсуточные) также варьируется из-за високосных лет, и поэтому матрица суммирования дней в годы меняется в зависимости от года.

3. Уважаемый мистер О’Хара, я пытался загрузить moment пакет, но, похоже, он больше не существует. aggregate_index fabletools Имеет ли from одно и то же приложение? Я также был бы признателен, если бы вы могли сообщить мне, где я могу узнать о последних разработках temporal aggregation fable .

4. Его можно найти на GitHub здесь: github.com/mitchelloharawild/moment