Различные определения AIC

12

Из Википедии есть определение информационного критерия Акаике (AIC) как , где - число параметров, а - логарифмическая вероятность модели. $AIC = 2k -2 \log L$ $k$ $\log L$

Тем не менее, наша эконометрика отмечает в уважаемом университете, что $AIC = \log (\hat{\sigma}^2) + \frac{2 \cdot k}{T}$ . Здесь $\hat{\sigma}^2$ - оценочная дисперсия для ошибок в модели ARMA, а $T$ - количество наблюдений в наборе данных временного ряда.

Последнее определение эквивалентно первому, но просто настроено для моделей ARMA? Или есть какой-то конфликт между этими двумя определениями?

— PIR
источник

3

Для справки: критерий единственного числа, критерии множественного числа. (Отредактировано соответственно.)

— Ник Кокс

15

Формула, которую вы цитируете из своих заметок, не совсем AIC.

AIC - это . $-2\log\mathcal{L}+2k$

Здесь я приведу схему приблизительного вывода, который достаточно ясно дает понять, что происходит.

Если у вас есть модель с независимыми нормальными ошибками с постоянной дисперсией,

L \propto σ^{- n} e^{- \frac{1}{2 σ^{2}} \sum ε_{i}^{2}}

$\mathcal{L}\propto \sigma^{-n} \: e^{-\frac{1}{2\sigma^2}\sum \varepsilon_i^2}$

который может быть оценен при максимальной вероятности как

\begin{array}{rcl} \propto & ({\hat{σ}}^{2})^{- n / 2} e^{- \frac{1}{2} n {\hat{σ}}^{2} / {\hat{σ}}^{2}} \\ \propto & ({\hat{σ}}^{2})^{- n / 2} e^{- \frac{1}{2} n} \\ \propto & ({\hat{σ}}^{2})^{- n / 2} \end{array}

$\begin{eqnarray} & \propto &(\hat{\sigma}^2)^{-n/2} e^{-\frac12 n\hat{\sigma}^2/\hat{\sigma}^2}\\ & \propto &(\hat{\sigma}^2)^{-n/2} e^{-\frac12 n}\\ & \propto &(\hat{\sigma}^2)^{-n/2} \end{eqnarray}$

(при условии, что оценка является оценкой ML) $\sigma^2$

Так что (вплоть до смещения на постоянную) $-2\log\mathcal{L} +2k = n\log{\hat{\sigma}^2} + 2k$

Теперь в модели ARMA, если действительно велико по сравнению с и , вероятность может быть аппроксимирована такой гауссовой структурой (например, вы можете написать ARMA приблизительно как более длинную AR и условие на достаточном количестве терминов, чтобы записать эту AR как модель регрессии), так что с вместо : $T$ $p$ $q$ $T$ $n$

$AIC \approx T\log{\hat{\sigma}^2} + 2k$

следовательно

$AIC/T \approx \log{\hat{\sigma}^2} + 2k/T$

Теперь, если вы просто сравниваете AIC, это деление на вообще не имеет значения, поскольку оно не меняет порядок значений AIC. $T$

Однако, если вы используете AIC для какой-то другой цели, которая зависит от фактического значения различий в AIC (например, для выполнения многомодельного вывода, как описано Бернхэмом и Андерсоном), то это имеет значение.

Многочисленные эконометрические тексты, кажется, используют эту форму AIC / T. Как ни странно, некоторые книги, кажется, ссылаются на Hurvich и Tsai 1989 или Findley 1985 для этой формы, но Hurvich & Tsai и Findley, кажется, обсуждают оригинальную форму (хотя у меня есть только косвенное указание на то, что Findley делает сейчас, так что, возможно, есть что-то в Финдли на это).

Такое масштабирование может быть выполнено по ряду причин - например, временные ряды, особенно высокочастотные временные ряды, могут быть очень длинными, а обычные AIC могут иметь тенденцию становиться громоздкими, особенно если очень мала. (Есть и другие возможные причины, но, поскольку я действительно не знаю причину, по которой это было сделано, я не начну перечислять все возможные причины.) $\sigma^2$

Возможно, вы захотите взглянуть на список фактов и заблуждений АИК Роба Хиндмана , в частности пункты с 3 по 7. Некоторые из этих пунктов могут привести к тому, что вы будете хотя бы немного осторожнее полагаться на слишком сильное приближение по вероятности Гаусса, но может быть, есть лучшее оправдание, чем я предлагаю здесь.

Я не уверен, что есть веская причина использовать это приближение для логарифмической вероятности, а не для фактического AIC, поскольку многие пакеты временных рядов в наши дни имеют тенденцию вычислять (/ максимизировать) фактическую логарифмическую вероятность для моделей ARMA. Кажется, нет причин не использовать его.

— Glen_b - Восстановить Монику
источник

1

Рано или поздно каждое обсуждение любого * IC превращается в «Это критерий, который вы должны использовать, за исключением того, что он часто дает неправильный ответ в подобных обстоятельствах». Просто быть ироничным, нисколько не критично относящимся к типично полезному ответу. Это так же, как в реальной жизни, где некоторые общие принципы, такие как «любить всех», обычно временно игнорируются другими советами, если кто-то пытается избить вас или сорвать с вас.

— Ник Кокс

1

n

$n$

2

Я считаю, что это основано на предположении о нормальных ошибках. В эконометрике вы используете асимптотику, особенно в приложениях временных рядов, использующих AIC. Как следствие, нормальное предположение должно выполняться асимптотически, чтобы оправдать эту (асимптотическую) схему выбора модели.

$ln(L) = -(T/2)ln(2\pi) -(T/2)ln(\sigma^2) - (1/2\sigma^2)\sum(x_i - \mu)$ $\mathbb{E}(X) = \mu$ $Var(X) = \sigma^2$ если ваши данные взяты из X. В дальнейшем мы пренебрегаем первым слагаемым, поскольку наблюдаемый образец не влияет на него. $x_1, ..., x_T$

Просто используйте более общую (первую) формулу и подключите для нормальной вероятности. Первый член можно игнорировать (он является константой независимо от выбора регрессора). Второе слагаемое становится . Третье слагаемое становится , где мы использовали . Опять же, здесь не оправдано использование коррекции конечной выборки, поскольку эта оценка действительна только асимптотически, если ошибки не являются нормальными. Поскольку мы не знаем , мы должны оценить третий член как = T. $L$ $Tln(\sigma^2)$ $(1/\sigma^2)(T\hat{\sigma}^2)$ $\hat{\sigma}^2 = T^{-1} \sum(x_i - \bar{x})$ $\sigma^2$ $(1/\sigma^2)(T\hat{\sigma}^2) = (1/\hat{\sigma}^2)(T\hat{\sigma}^2)$

$AIC = 2k + Tln(\sigma^2) + 1$ $1$ $T$ $T$ $AIC$ $AIC/T$

— Иеремия К
источник