Предварительные условия для сравнения моделей AIC

Какие именно предварительные условия необходимо выполнить для сравнения моделей AIC для работы?

Я только пришел к этому вопросу, когда я сделал сравнение, как это:

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

Таким образом, я оправдал logпреобразование переменной usili. Но я не знаю, могу ли я сравнить модели AIC, когда, например, зависимая переменная отличается?

Идеальный ответ будет включать в себя список предпосылок (математические предположения).

— любознательный
источник

Вы не можете сравнить две модели, так как они не моделируют одну и ту же переменную (как вы правильно узнаете себя). Тем не менее AIC должен работать при сравнении как вложенных, так и не вложенных моделей.

Просто напоминание, прежде чем мы продолжим: логарифмическая вероятность Гаусса определяется

журнал (L (θ)) знак равно - \frac{| D |}{2} журнал (2 π) - \frac{1}{2} журнал (| К |) - \frac{1}{2} (Икс - μ)^{T} К^{- 1} (Икс - μ),

$\log(L(\theta)) =-\frac{|D|}{2}\log(2\pi) -\frac{1}{2} \log(|K|) -\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu),$

- ковариационная структура вашей модели,количество точек в ваших наборах данных, средний ответ и ваша зависимая переменная. $K$ $|D|$ $\mu$ $x$

В частности, AIC рассчитывается так, чтобы он равнялся , где - число фиксированных эффектов в вашей модели, а функция вероятности [1]. Он практически сравнивает компромисс между дисперсией ( ) и смещением ( ) в ваших предположениях моделирования. Таким образом, в вашем случае он будет сравнивать две разные логарифмические структуры правдоподобия, когда дело доходит до смещения. Это потому, что когда вы вычисляете свою логарифмическую вероятность, вы фактически смотрите на два термина: подходящий термин, обозначаемый $2k - 2 \log(L)$ $k$ $L$ $2k$ $2\log(L)$ , и штраф за сложность, обозначаемый как $-\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu)$ . Таким образом, вы видите, что ваш подходящий термин для двух моделей совершенно различен; в первом случае вы сравниваете остатки из необработанных данных, а в другом случае - остатки зарегистрированных данных. $-\frac{1}{2} \log(|K|)$

Помимо Wikipedia, AIC также определен, чтобы приравнять: [3]; эта форма делает еще более очевидным, почему разные модели с разными зависимыми переменными не сравнимы. RSS-это два случая просто несопоставимы между ними. $|D| \log\left(\frac{RSS}{|D|}\right) + 2k$

Оригинальная статья Акаике [4] на самом деле довольно трудна для понимания (я думаю). Он основан на дивергенции KL (грубо говоря, различие между двумя распределениями) и доказывает, как вы можете аппроксимировать неизвестное истинное распределение ваших данных и сравнивать его с распределением данных, которое предполагает ваша модель. Вот почему «чем меньше оценка AIC, тем лучше» ; вы ближе к приблизительному истинному распределению ваших данных.

Итак, чтобы свести воедино все, что нужно помнить при использовании AIC, это три [2,5]:

Вы не можете использовать его для сравнения моделей разных наборов данных.
Вы должны использовать одинаковые переменные ответа для всех моделей-кандидатов.
Вы должны иметь , так как в противном случае вы не получите хорошую асимптотическую последовательность. $|D| >> k$

Извините, что сообщаю вам плохие новости, но использование AIC, чтобы показать, что вы выбираете одну зависимую переменную вместо другой, не является статистически обоснованной вещью. Проверьте распределение ваших остатков в обеих моделях. Если зарегистрированный случай данных имеет нормально распределенные остатки, а случай необработанных данных - нет, у вас есть все обоснование, которое вам может понадобиться. Вы также можете проверить, соответствуют ли ваши необработанные данные логнормальным нормам, что также может быть достаточным оправданием.

Для строгих математических предположений игра KL расхождение и теория информации ...

Ах, и некоторые ссылки:

http://en.wikipedia.org/wiki/Akaike_information_criterion
Информационный критерий Акаике, Шухуа Ху (презентация, стр. 17-18)
Прикладной многомерный статистический анализ, Johnson & Wichern, 6th Ed. (с. 386-387)
Новый взгляд на идентификацию статистической модели, Х. Акаике, IEEE Транзакции по автоматическому управлению 19 (6): 716–723 (1974)
Урок выбора модели № 1: Информационный критерий Акаике, Д. Шмидт и Э. Макалич, (презентация с.39)

— usεr11852 говорит восстановить Monic
источник

Благодарность! Я не понял математику, но я понял суть сообщения. Однако не могли бы вы перечислить все предпосылки, необходимые для сравнения моделей AIC? Просто чтобы быть уверенным, я не сделаю еще одну ошибку в следующий раз. Я пойду и проверю их по одному.

— Любопытно

| D |

$|D|$

p

$p$

L (θ)

$L(\theta)$

θ

$\theta$

p (x | θ)

$p(x|\theta)$ а ваши оценки ML были непротиворечивыми, но я думаю, что эти предположения являются излишним показателем в статье. ..

спасибо за добавление списка этих 3 предположений в ответ! Это то, что мне было нужно.

— Любопытно

Еще раз посмотрим на ваш ответ: ваш пункт 1. «Вы не можете использовать его для сравнения моделей разных наборов данных» . Что вы подразумеваете под «набором данных»? Что если я изменил набор зависимых переменных? Я думаю, что в этом случае AIC должен быть еще сопоставимым? Не могли бы вы обновить свой ответ, чтобы уточнить это?

— Любопытно

R S S

$RSS$

μ

$\mu$

x

$x$

uu0 $\prod_i y_i^{-1}$ $2\sum_i\log (y_i)$ uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)

— probabilityislogic
источник

Я не понимаю, что вы следуете за вашей попыткой как-то «исправить» AIC и что вы на самом деле получили (как интерпретировать свой результат). В любом случае, не углубляйтесь в это, это не имеет значения, потому что мой вопрос был о чем-то совершенно ином: каковы общие предпосылки для того, чтобы AIC (фактическая, неоткорректированная) была разумно сопоставимой. Не зацикливайтесь на этом конкретном примере, это всего лишь пример общего.

— Любопытно

@curious - моя точка зрения такова, что мой «исправленный AIC» - это фактический AIC, а то, что вы получаете от функции AIC, неверно, когда вы сравниваете преобразования «зависимой переменной». Дело в том

- 2 \log (p (y | θ))

$-2\log (p (y|\theta))$ изменения при трансформации,

x = g (y)

$x=g (y)$ (например,

x = l o g (y)

$x=log (y)$ ). Вы должны учитывать якобиан этого изменения при использовании AIC. Используемая AIC()вами функция не учитывает это.

— вероятностная

@probabilityislogic: Есть ли у вас какие-либо академические ссылки на ваше предложение (AIC (uu0) + 2 * sum (log (usili)))), чтобы я мог цитировать их в научных трудах? Спасибо.

— KuJ

Этот отрывок из Akaike 1978 содержит цитату в поддержку решения @probabilityislogic.

Akaike, H. 1978. О вероятности модели временных рядов. Журнал Королевского статистического общества. Серия D (Статистик) 27: 217-235.

— BJD
источник

извините, я не понимаю, что такое «преобразование переменной» и как это связано с моим вопросом. Пожалуйста, объясните, спасибо

— Любопытный