Масштабирование функций для прогнозирования временных рядов

#time-series #feature-scaling

Вопрос:

Я нахожусь в процессе проведения анализа временных рядов, точнее, многомерных временных рядов, и, прежде чем вводить входные данные в мою модель LSTM, я их масштабировал. Метрики, которые я использую для оценки своей модели, — это потеря и средняя абсолютная ошибка, как для набора проверки.

Я смог добиться довольно хороших результатов как с моей потерей, так и с МЭЙ ниже 1. Однако тогда мне пришло в голову, что, поскольку мои данные были масштабированы, они находятся в диапазоне, скажем, от 1 до -1, поэтому эти результаты неудивительны.

По сути, у меня возникает вопрос: как вы оцениваете модель, предназначенную для прогнозирования временных рядов или даже регрессии, когда данные были масштабированы? Разве потери в любом случае не будут очень низкими из-за диапазона, в который попадают данные?

Ответ №1:

Разве потери в любом случае не будут очень низкими из-за диапазона, в который попадают данные?

Да, однако, функция потерь здесь обычно заключается в сравнении производительности одной модели с другой. Пока вы масштабируете модели на одних и тех же данных, это полезно для этого.

Однако, если вы хотите получить лучшее представление о потере без масштаба, вы можете вычислить, а затем масштабировать потери обратно, используя тот же масштабер, который вы изначально использовали. Наконец, я не рекомендую вам использовать метрику ошибок для оценки «хороших результатов» для вашей модели, если у вас нет четкого эталона. Вы действительно должны отображать прогнозируемые и фактические значения на графике