Расчет ошибки прогноза с перекрестной проверкой временных рядов

У меня есть модель прогнозирования для временного ряда, и я хочу вычислить ошибку прогнозирования вне выборки. На данный момент стратегия, которой я придерживаюсь, - это стратегия, предложенная в блоге Роба Хиндмана (в нижней части страницы), которая выглядит следующим образом (предполагается, что временной ряд и тренировочный набор размера ) $y_1,\dots,y_n$ $k$

Подгоните модель к данным и пусть будет прогнозом для следующего наблюдения. $y_t,\dots,y_{t+k-1}$ $\hat{y}_{t+k}$
Вычислите ошибку прогноза как . $e_{t} = \hat{y}_{t+k} - y_{t+k}$
Повторите для $t=1,\dots,n-k$
Вычислить среднеквадратичную ошибку как $\textrm{MSE}=\frac{1}{n-k}\sum_{t=1}^{n-k} e_t^2$

Мой вопрос заключается в том, насколько я должен беспокоиться о корреляциях из-за моих перекрывающихся тренировочных наборов. В частности, скажем, я хочу прогнозировать не только следующее значение, но и следующие значения , чтобы у меня были прогнозы и ошибки , и я хочу построить временную структуру ошибок предсказания. $m$ $\hat{y}_{t+k},\dots,\hat{y}_{t+k+m-1}$ $e_{t,1},\dots,e_{t,m}$

Могу ли я все еще поворачивать окно тренировки, установленное вперед, на 1 каждый раз, или я должен свернуть его вперед на ? Как меняются ответы на эти вопросы, если в серии, которую я предсказываю, есть значительная автокорреляция (возможно, это процесс с большой памятью, то есть автокорреляционная функция затухает как степенной закон, а не экспоненциально). $m$

Я был бы признателен либо за объяснение здесь, либо за ссылки на где-нибудь, где я могу найти теоретические результаты о доверительных интервалах вокруг MSE (или другие измерения ошибок).

time-series forecasting

— Крис Тейлор
источник

Похоже, вас больше интересует оценка ошибок с использованием максимальной энтропийной начальной загрузки , а не перекрестной проверки. Это позволит вам создать несколько начальных загрузок ваших данных, которые затем можно будет разбить на столько наборов поездов / тестов, сколько вы захотите, чтобы рассчитать доверительные интервалы для ваших прогнозов.

Роб Хиндман подробно обсуждает перекрестную проверку временных рядов в своем блоге , где он реализует несколько различных методов «прокручивания» и прогнозирования, но в основном он сосредоточен на реализации. У меня также есть некоторые дальнейшие реализации в моем блоге . Возможно, самый простой подход - усреднить вашу ошибку по всем временным окнам и, следовательно, игнорировать и возможные корреляции ошибок.

Насколько я могу судить, теоретическое состояние перекрестной проверки данных временных рядов несколько отстает от теоретического состояния общей перекрестной проверки. Интуитивно я ожидаю, что ошибка будет увеличиваться по мере увеличения горизонта, что говорит о том, что вы должны ожидать коррелированные ошибки в различных горизонтах прогноза. Почему это беспокоит вас?

— Zach
источник