Выбор модели Box-Jenkins

Процедура выбора модели Бокса-Дженкинса в анализе временных рядов начинается с рассмотрения автокорреляционных и частичных автокорреляционных функций ряда. Эти графики могут предложить соответствующие и в модели ARMA . Процедура продолжается, предлагая пользователю применить критерии AIC / BIC для выбора наиболее экономной модели среди тех, которые дают модель с ошибкой в виде белого шума. $p$ $q$ $(p,q)$

Мне было интересно, как эти этапы визуального осмотра и выбора модели на основе критериев влияют на предполагаемые стандартные ошибки окончательной модели. Я знаю, что многие процедуры поиска в области поперечного сечения, например, могут привести к смещению стандартных ошибок.

На первом шаге, как выбор подходящего числа лагов с помощью данных (ACF / PACF) влияет на стандартные ошибки для моделей временных рядов?

Я предполагаю, что выбор модели на основе баллов AIC / BIC окажет влияние, аналогичное влиянию методов поперечного сечения. На самом деле я тоже не очень разбираюсь в этой области, поэтому любые комментарии также будут оценены.

Наконец, если вы записали точный критерий, используемый для каждого шага, можете ли вы запустить весь процесс, чтобы оценить стандартные ошибки и устранить эти проблемы?

— Чарли
источник

Смещение стандартных ошибок (параметров?) так важно в теоретико-ARMA-моделях? Модели ARMA ASFAIK в основном используются для краткосрочных прогнозов. Проблемы с интерпретацией параметров и их свойствами менее (наименьшими?) Важны. Конечно, если вы не имеете в виду характеристики инновационного процесса (ошибка термин), планируя производить соответствующие интервалы прогнозирования.

— Дмитрий Челов

@Dmitrij, Есть две основные причины, почему я беспокоюсь о смещении в стандартных ошибках коэффициентов. Первое, как вы упомянули, это создание интервалов прогнозирования. Второе - это тестирование структурных разрывов в модели, общий вопрос, на который экономист будет заинтересован ответить. Стандартные ошибки, генерируемые с использованием процедуры выбора, должны быть слишком маленькими, давать слишком узкие интервалы прогнозирования и тестировать статистику, которая слишком велика.

— Чарли

но в a-теоретических моделях (имеется в виду, что нет теории, нет структуры) структурные разрывы имеют мало общего с параметрами, это были бы некоторые общие тесты, касающиеся поведения остатков модели. Хорошо, что в этом случае объективные оценки параметров моделей менее важны, ARMA просто не имеет интерпретации структурных моделей. Таким образом, скупые модели действительно являются лучшими предикторами, поскольку они хорошо уравновешивают обычно плохие свойства оценок малых выборок и точность прогнозирования.

— Дмитрий Челов

Обратите внимание, что даже если вы знаете процесс генерирования данных, который имеет много параметров, в небольших выборках более простая модель, вероятно, будет делать лучшие прогнозы, но в структурном контексте параметры такой модели будут очень смещенными (опущено переменное смещение)!

— Дмитрий Челов

Ответы:

Любая процедура выбора модели повлияет на стандартные ошибки, и это вряд ли когда-либо учитывается. Например, интервалы прогнозирования вычисляются условно на основе оценочной модели, а оценка параметров и выбор модели обычно игнорируются.

Должна быть предусмотрена возможность начальной загрузки всей процедуры, чтобы оценить влияние процесса выбора модели. Но помните, что начальная загрузка временных рядов сложнее обычной начальной загрузки, потому что вы должны сохранить последовательную корреляцию. Начальная загрузка блока - один из возможных подходов, хотя он теряет некоторую последовательную корреляцию из-за структуры блока.

— Роб Хиндман
источник

По моему мнению, выбор подходящего количества лагов ничем не отличается от выбора количества входных рядов в процедуре пошаговой регрессии вперед. Возрастание важности лагов или конкретной серии входных данных является основой для предварительной спецификации модели.

Поскольку вы утверждали, что acf / pacf является единственной основой для выбора модели Box-Jenkins, позвольте мне рассказать вам, чему меня научил некоторый опыт. Если в серии проявляется не затухающая акция, подход Бокса-Дженкинса (около 1965 г.) предполагает различие данных. Но если ряд имеет сдвиг уровня, как данные Нила , то «визуально видимая» нестационарность является признаком необходимой структуры, но различие не является средством защиты. Этот набор данных Нила можно моделировать без различий, просто указав сначала на необходимость изменения уровня. В том же духе нас учат, используя понятия 1960 года, что если акф имеет сезонную структуру ( т.е.значимые значения при запаздывании s, 2s, 3s, ...) тогда мы должны включить сезонный компонент ARIMA. В целях обсуждения рассмотрим ряд, который является стационарным вокруг среднего значения и с фиксированными интервалами, скажем, каждый июнь есть «высокое значение». Эта серия должным образом обрабатывается путем включения «старомодных» фиктивных серий 0 и 1 (в июне) для обработки сезонной структуры. Сезонная модель ARIMA неправильно использовала бы память вместо неопределенной, но ожидающей быть найденной X-переменной. Эти две концепции идентификации / включения неопределенной детерминированной структуры являются прямыми приложениями работы И. Чанга, Уильяма Белла, Джорджа Тяо, Р. Цая , Чена и др. (Начиная с 1978 г.) в рамках общей концепции обнаружения вмешательства.

Даже сегодня некоторые аналитики бездумно проводят стратегии максимизации памяти, называя их «Автоматическая ARIMA», не признавая, что «моделирование бессмысленной памяти» предполагает, что детерминированная структура, такая как импульсы, сдвиги уровней, сезонные импульсы и локальные тренды времени, не существует или хуже, но не играет никакой роли. роль в идентификации модели. ИМХО, это похоже на то, чтобы положить голову в песок.

— IrishStat
источник

Спасибо за отличный совет по выбору модели, но мне было интересно, как этот процесс повлияет на наш вывод впоследствии.

— Чарли

Чарли: Я не верю, что предварительная диагностика данных, такая как анализ автокорреляций или взаимных корреляций или любой другой процедуры идентификации модели, такой как графическое представление, оказывает какое-либо влияние на статистическую значимость любых оцениваемых параметров. Это мое мнение, и «здесь я стою, я не могу делать ничего другого». Спасибо за благодарность, и если я могу чем-то помочь молодому Чарли, пожалуйста, свяжитесь со мной, так как я люблю быть внесенным в список вспомогательных (неоплачиваемых!) Ресурсов в диссертациях Phd.

— IrishStat