Как обстоят дела с автокорреляцией?

Для предисловия у меня достаточно глубокие математические знания, но я никогда не имел дело с временными рядами или статистическим моделированием. Так что не надо быть очень нежным со мной :)

Я читаю эту статью о моделировании использования энергии в коммерческих зданиях, и автор делает следующее заявление:

[Присутствие автокорреляции возникает] потому, что модель была разработана на основе данных временного ряда об использовании энергии, которые по своей сути автокоррелированы. Любая чисто детерминированная модель для данных временных рядов будет иметь автокорреляцию. Обнаружено, что автокорреляция уменьшается, если [больше коэффициентов Фурье] включено в модель. Однако в большинстве случаев модель Фурье имеет низкую CV. Следовательно, модель может быть приемлемой для практических целей, которые не требуют высокой точности.

0.) Что означает «любая чисто детерминированная модель для данных временных рядов будет иметь автокорреляцию»? Я смутно понимаю, что это значит - например, как бы вы ожидали предсказать следующую точку в вашем временном ряду, если бы у вас была 0 автокорреляция? Конечно, это не математический аргумент, поэтому 0

1.) У меня сложилось впечатление, что автокорреляция в основном убила вашу модель, но, думая об этом, я не могу понять, почему это так. Так почему автокорреляция плохая (или хорошая) вещь?

2.) Решение, которое я слышал о работе с автокорреляцией, состоит в том, чтобы различать временные ряды. Не пытаясь прочесть мысли автора, почему бы не сделать различие, если существует ничтожная автокорреляция?

3.) Какие ограничения на модель накладывают незначительные автокорреляции? Это предположение где-то (то есть нормально распределенные остатки при моделировании с простой линейной регрессией)?

В любом случае, извините, если это основные вопросы, и заранее спасибо за помощь.

time-series autocorrelation

— BenDundee
источник

Ответы:

Я думаю, что автор, вероятно, говорит об остатках модели. Я утверждаю это из-за его заявления о добавлении большего числа коэффициентов Фурье; если, как я полагаю, он подбирает модель Фурье, то добавление большего количества коэффициентов уменьшит автокорреляцию остатков за счет более высокого CV.

Если у вас возникли проблемы с визуализацией, подумайте о следующем примере: предположим, у вас есть следующий набор данных из 100 точек, полученный из двухфакторной модели Фурье с добавленным белым гауссовым шумом:

На следующем графике показаны две подгонки: одна выполнена с 2 коэффициентами Фурье, а другая - с 200 коэффициентами Фурье:

Как вы можете видеть, 200 коэффициентов Фурье лучше соответствуют DATAPOINTS, а 2 коэффициента («реальная» модель) лучше соответствуют MODEL. Это означает, что автокорреляция остатков модели с 200 коэффициентами почти наверняка будет ближе к нулю при всех задержках, чем остатки модели с 2 коэффициентами, потому что модель с 200 коэффициентами точно соответствует практически всем точкам данных (т. Е. Остатки будут быть почти все нули). Тем не менее, что, по вашему мнению, произойдет, если вы оставите, скажем, 10 точек данных из выборки и подберете те же модели? Двухфакторная модель лучше предсказывает точки данных, которые вы вычли из выборки! Таким образом, это приведет к более низкой CV-ошибке, чем в модели с 200 коэффициентами; это называется переоснащение, Причина этого «волшебства» заключается в том, что CV пытается измерить ошибку предсказания , т. Е. Насколько хорошо ваша модель предсказывает точки данных, отсутствующие в вашем наборе данных.
В этом контексте автокорреляция остатков является «плохой», потому что это означает, что вы недостаточно хорошо моделируете корреляцию между точками данных. Основная причина, по которой люди не делают различий между сериями, заключается в том, что они действительно хотят смоделировать базовый процесс таким, какой он есть. Одно из них отличается от временных рядов, как правило, для того, чтобы избавиться от периодичностей или трендов, но если эта периодичность или тренд на самом деле является тем, что вы пытаетесь смоделировать, то дифференцирование их может показаться последним вариантом (или вариантом для моделирования остатков с более сложный случайный процесс).
Это действительно зависит от области, над которой вы работаете. Это может быть проблемой и с детерминированной моделью. Однако, в зависимости от формы автокорреляции, это можно легко увидеть, когда автокорреляция возникает из-за, например, фликкер-шума, ARMA-подобного шума или если это остаточный базовый периодический источник (в этом случае вы, возможно, захотите увеличить число коэффициентов Фурье).

— Нестора
источник

Спасибо за ваш ответ, и, если вы пожелаете, я хотел бы попытаться переварить их по одному. Для 1.) существует ли интуитивно понятный способ понять, почему включение большего числа коэффициентов Фурье уменьшает автокорреляцию и увеличивает CV (я предполагаю, что это CV остатков)?

— BenDundee

Я добавил пример. Надеюсь, это поможет. И да, он ссылается на резюме остатков.

— Нестор

Ах, хорошо, я думаю, я вижу. Это связано с тем, что я собирался спросить в отношении 2. Как можно пойти на исправление этой модели (в общем), чтобы лучше понять корреляцию? Не могли бы вы добавить ограничение на матрицу корреляции коэффициентов Фурье?

— BenDundee

Это сложная задача, на которой я тоже. Особенно с периодическими детерминированными моделями становится действительно трудно понять, какую модель шума использовать. Большая проблема заключается в том, что вы априори не знаете количество коэффициентов в модели Фурье, поэтому они являются случайными переменными, которые вы тоже должны моделировать. При наличии небольшого количества точек данных, я определенно пошел бы на обратимый скачок MCMC, чтобы смоделировать это. Я бы попробовал разные модели шума и сравнил AIC / BIC между ними. Однако для больших наборов данных это невозможно.

— Нестор

Я нашел эту статью « Ложные регрессии в эконометрике » полезной, пытаясь понять, почему устранение трендов необходимо. По сути, если две переменные имеют тенденцию к изменению, они будут меняться, что является причиной неприятностей.

— гипотезы
источник