Что означает показатель по информационному критерию Акаике (AIC) для модели?


34

Я видел здесь несколько вопросов о том, что это значит с точки зрения непрофессионала, но они слишком непрофессиональны для моей цели здесь. Я пытаюсь математически понять, что означает оценка AIC.

Но в то же время я не хочу строгого доказательства, которое заставило бы меня не видеть более важные моменты. Например, если бы это было исчисление, я был бы счастлив с бесконечно малыми, а если бы это была теория вероятности, я был бы счастлив без теории меры.

Моя попытка

читая здесь и некоторые мои собственные обозначения, является критерием AIC модели для набора данных следующим образом: , где это число параметров модели , а является функцией максимального правдоподобия значение модельного от набора данных .AICm,DmD

AICm,D=2km2ln(Lm,D)
kmmLm,DmD

Вот мое понимание того, что подразумевает вышеизложенное:

m=arg maxθPr(D|θ)

Сюда:

  • km - количество параметров m .
  • Lm,D=Pr(D|m)=L(m|D) .

Давайте теперь перепишем AIC:

AICm,D=2km2ln(Lm,D)=2km2ln(Pr(D|m))=2km2loge(Pr(D|m))

Очевидно, Pr(D|m) - это вероятность наблюдения набора данных D под моделью m . Таким образом, чем лучше модель m соответствует набору данных D , тем больше становится Pr(D|m) и, следовательно, тем меньше становится член 2loge(Pr(D|m)) .

Очевидно, что AIC вознаграждает модели, которые соответствуют их наборам данных (потому что чем меньше AICm,D , тем лучше).

С другой стороны, термин 2km четко наказывает модели с большим количеством параметров, делая AICm,D больше.

Другими словами, AIC кажется мерой, которая:

  • Награды точные модели (те, которые подходят D лучше) логарифмически. Например, это поощряет увеличение физической подготовки с 0.4 до 0.5 больше, чем повышение физической подготовки с 0.8 до 0.9 . Это показано на рисунке ниже.
  • Награды снижения параметров линейно. Таким образом, уменьшение параметров с до вознаграждается так же, как и уменьшение от до .8 2 19821

введите описание изображения здесь

Другими словами (снова), AIC определяет компромисс между важностью простоты и важностью пригодности .

Другими словами (снова), AIC, кажется, предлагает, чтобы:

  • Важность фитнеса уменьшается.
  • Но важность простоты никогда не уменьшается, а всегда всегда важна.

Q1: Но вопрос в том, почему мы должны заботиться об этом конкретном компромиссе простоты пригодности?

Q2: почему и почему ? Почему бы просто: т. е. должны отображаться в виде y одинаково полезен для и должен быть в состоянии служить для сравнительного сравнения различных моделей (он просто не масштабируется на ; нам это нужно?).2 log e ( ) AIC m , D = 2 k m - 2 ln ( L m , D ) = 2 ( k m - ln ( L m , D ) ) AIC m , D2k2loge()AICm,D,ПРОСТОЙAICm,D2

AICm,D=2km2ln(Lm,D)=2(kmln(Lm,D))AICm,D2=kmln(Lm,D)AICm,D,SIMPLE=kmln(Lm,D)
AICm,D,SIMPLEAICm,D2

Q3: Как это относится к теории информации? Может ли кто-нибудь извлечь это из теоретического начала информации?


2
Что означает ваша запись в ? Вы намекаете на выбор модели? То, что у вас было выше, на самом деле не означает, что AIC требует от вас выбора модели. Q2, как вы говорите, является в некотором смысле чем-то довольно произвольным, но из-за того, что AIC делает оценку расходимости Кульбака-Лейблера, что также относится к ответу на вопрос Q1 и придает некоторый смысл таким величинам, как . exp ( ( AIC m - min ( AIC 1 , , AIC M ) ) / 2 )m=argmaxθPr(D|θ)exp((AICmmin(AIC1,,AICM))/2)
Бьёрн

θ Pr ( D | θ ) θ D D θ m θarg maxθPr(D|θ) означает, что продолжайте искать много s, пока не найдете тот, который минимизирует вероятность . Каждый является кортеж / вектор параметров, определяющих нашу модель , которая пытается объяснить набора данных . По сути, это говорит: у нас есть набор данных , какова вероятность того, что он был сгенерирован моделью, параметризованной ? Наша модель по существу которая решает эту проблему максимизации. θPr(D|θ)θDDθmθ
пещерный человек

3
Извините, но вы просматриваете несколько моделей (поскольку вы пишете ), или вы говорите об оценке максимального правдоподобия ? Также обратите внимание, что - это вероятность того, что данные возникли в рамках данной модели и для заданных параметров, а не вероятность того, что данные были сгенерированы этой моделью, параметризованной . ... θ : = Arg макс θ P Данная модель ( D | θ ) P Данная модель ( D | θ ) θm=θ^:=argmaxθPgiven model(D|θ)Pgiven model(D|θ)θ
Бьёрн

MLE - это то, что я имею в виду. Но я просто пытаюсь сказать, что параметры tuple настолько всеобъемлющи, что они также определяют модель. Также у меня может быть несколько моделей, скажем, каждая из которых имеет различную оценку AIC . Я просто делаю эту запись, потому что я думаю, что это проще. Я ужасно ошибаюсь или излишне путаю это? (и спасибо, что исправили меня в том, что означает MLE)м 1 , м 2 AIC 1 , AIC 2θm1,m2AIC1,AIC2
пещерный человек

3
Вывод AIC как приближение к ожидаемой потере информации KL приведен в Pawitan (2001), по всей вероятности , гл. 13
Scortchi - Восстановить Монику

Ответы:


13

Этот вопрос по пещерному не пользуется популярностью, но не было попытки ответа в течение нескольких месяцев , пока мой спорного один. Возможно, что приведенный ниже фактический ответ сам по себе не является спорным, он просто представляет собой «нагруженные» вопросы, потому что поле кажется (по крайней мере мне) заполненным помощниками AIC и BIC, которые предпочитают использовать МЖС, чем методы друг друга. Пожалуйста, посмотрите на все перечисленные предположения и ограничения, налагаемые на типы данных и методы анализа, и прокомментируйте их; исправить это, внести свой вклад. Пока что некоторые очень умные люди внесли свой вклад, так что медленный прогресс достигнут. Я признаю вклад Ричарда Харди и GeoMatt22, добрые слова Антони Пареллада и доблестные попытки Кагдаса Озгенца и Бена Огорека связать расхождение KL с фактическим расхождением.

Прежде чем мы начнем, давайте рассмотрим, что такое AIC, и один из источников для этого - Предварительные условия для сравнения моделей AIC, а другой - от Rob J Hyndman . В частности, AIC рассчитывается как равный

2k2log(L(θ)),

где - количество параметров в модели, а - функция правдоподобия. AIC сравнивает компромисс между дисперсией ( ) и смещением ( ) из предположений моделирования. Из фактов и ошибок AIC , пункт 3 «AIC не предполагает, что остатки гауссовы. Просто гауссовская вероятность наиболее часто используется. Но если вы хотите использовать какой-то другой дистрибутив, продолжайте». AIC - это наказанная вероятность, какую бы вероятность вы ни выбрали. Например, чтобы разрешить AIC для распределенных остатков Student-t, мы могли бы использовать решение максимального правдоподобия для Student-t . L ( θ ) 2 k 2 log ( L ( θ ) )kL(θ)2k2log(L(θ))логарифмическая правдоподобие, обычно применяемое для AIC , получается из гауссовой логарифмической вероятности и определяется как

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

| D | μ х K > > | D | > 2 К > | D | K > > | D | К | D | сK - ковариационная структура модели,размер выборки; число наблюдений в наборах данных, средний ответ и зависимая переменная. Обратите внимание, что, строго говоря, для AIC нет необходимости корректировать размер выборки, поскольку AIC не используется для сравнения наборов данных, только модели, использующие один и тот же набор данных. Таким образом, нам не нужно исследовать, правильно ли выполняется коррекция размера выборки, но нам пришлось бы беспокоиться об этом, если бы мы могли как-то обобщить AIC, чтобы он был полезен между наборами данных. Точно так же много сделано для чтобы обеспечить асимптотическую эффективность. Минималистский взгляд может рассматривать AIC как «индекс», делая|D|μxK>>|D|>2K>|D|актуальны ине имеет значения. Однако, некоторое внимание было уделено этому в форме предложения измененного AIC для не намного большего, чемназывается AIC см. второй абзац ответа на Q2 ниже. Такое распространение «мер» только укрепляет представление о том, что АИК является индексом. Однако при использовании слова «i» следует соблюдать осторожность, так как некоторые сторонники AIC приравнивают использование слова «index» с той же любовью, с которой они могут относиться к упоминанию своего онтогенеза как внебрачного.K>>|D|K|D|c

Q1: Но вопрос в том, почему мы должны заботиться об этом конкретном компромиссе простоты пригодности?

Ответ в двух частях. Сначала конкретный вопрос. Вы должны заботиться только потому, что так было определено. Если вы предпочитаете, нет причин не определять CIC; Информационный критерий пещерного человека, это не будет AIC, но CIC даст те же ответы, что и AIC, это не повлияет на компромисс между добротностью соответствия и положительной простотой. Любая константа, которую можно было бы использовать в качестве множителя AIC, в том числе один раз, должна была бы быть выбрана и соблюдена, поскольку не существует эталонного стандарта для обеспечения абсолютной шкалы. Однако соблюдение стандартного определения не является произвольным в том смысле, что есть место для одного и только одного определения или «соглашения» для количества, такого как AIC, которое определяется только в относительном масштабе. Также см. Предположение № 3 AIC ниже.

Второй ответ на этот вопрос касается специфики компромисса между АИК и его простоты независимо от того, как был бы выбран его постоянный множитель. То есть что на самом деле влияет на «компромисс»? Это влияет на степень свободы настройки количества параметров в модели, что привело к определению «нового» AIC с именем AIC следующим образом:c

AICc=AIC+2k(k+1)nk1=2knnk12ln(L),

где - размер выборки. Поскольку теперь при сравнении моделей, имеющих различное количество параметров, весовые коэффициенты немного отличаются, AIC выбирает модели не так, как сам AIC, и идентично AIC, когда две модели отличаются, но имеют одинаковое количество параметров. Другие методы также будут выбирать модели по-разному, например: «BIC [sic, байесовский информационный критерий ] обычно штрафует свободные параметры более строго, чем информационный критерий Акаике, хотя это зависит ...» ANOVA также будет штрафовать нештатные параметры с использованием частичных вероятностей Обязательность значений параметров по-разному, и в некоторых случаях будет предпочтительнее использования AICсnc, В целом, любой метод оценки соответствия модели будет иметь свои преимущества и недостатки. Я бы посоветовал проверить эффективность любого метода выбора модели для его применения к методологии регрессии данных более энергично, чем тестирование самих моделей. Есть основания сомневаться? Да, следует проявлять осторожность при построении или выборе любого модельного теста, чтобы выбрать методы, которые являются методологически приемлемыми. AIC полезен для подмножества оценок моделей, см. Q3, следующий. Например, извлечение информации с помощью модели A может быть лучше всего выполнено с помощью метода регрессии 1, а для модели B - с помощью метода 2 регрессии, где модель B и метод 2 иногда дают нефизические ответы, и где ни один из методов регрессии не является MLR,

Q3 Как это относится к теории информации :

Предположение MLR # 1. AIC основывается на предположениях о максимальной вероятности (MLR) применимости к проблеме регрессии. Есть только одно обстоятельство, при котором обычная регрессия по методу наименьших квадратов и регрессия по методу максимального правдоподобия были названы мне одинаковыми. Это было бы, когда остатки от линейной регрессии обычных наименьших квадратов (OLS) обычно распределяются, а MLR имеет гауссову функцию потерь. В других случаях линейной регрессии OLS, для нелинейной регрессии OLS и негауссовых функций потерь, MLR и OLS могут отличаться. Есть много других целей регрессии, чем OLS или MLR или даже хорошее соответствие, и часто хороший ответ имеет мало общего с любым из них, например, для большинства обратных задач, Высоко цитируются попытки (например, 1100 раз) использовать обобщенную AIC для квази-правдоподобия, чтобы зависимость от регрессии максимального правдоподобия была смягчена, чтобы допустить более общие функции потерь . Более того, MLR для Student's-t, хотя и не в закрытой форме, является устойчиво сходящимся . Поскольку остаточные распределения Стьюдента являются более общими и более общими, чем гауссовские условия, а также включают их, я не вижу особой причины использовать гауссовское предположение для AIC.

Предположение MLR № 2. MLR - это попытка количественно оценить добротность. Иногда применяется, когда это не подходит. Например, для данных обрезанного диапазона, когда используемая модель не обрезается. Все хорошо, если у нас есть полный информационный охват. Во временных рядах мы обычно не располагаем достаточно быстрой информацией, чтобы полностью понять, какие физические события происходят первоначально, или наши модели могут быть недостаточно полными, чтобы исследовать очень ранние данные. Еще более тревожным является то, что часто невозможно проверить пригодность в очень поздние времена из-за отсутствия данных. Таким образом, соответствие качества может моделировать только 30% подгонки площади под кривой, и в этом случае мы оцениваем экстраполированную модель на основе того, где находятся данные, и мы не изучаем, что это значит. Чтобы экстраполировать, нам нужно смотреть не только на достоверность соответствия «сумм», но и на производные от тех сумм, которые не соответствуют, у нас нет «добротности» экстраполяции. Таким образом, методы подбора, такие как B-сплайны, находят применение, потому что они могут более плавно предсказать, что представляют собой данные, когда производные подходят, или альтернативно обработать обратную задачу, например, некорректно интегрированную обработку по всему модельному диапазону, такую ​​как адаптивное распространение ошибок Тихонова. регуляризация.

Другая сложная проблема, данные могут сказать нам, что мы должны делать с этим. То, что нам нужно для соответствия (когда это уместно), - это наличие остатков, которые являются расстояниями в том смысле, что стандартное отклонение - это расстояние. То есть, качество соответствия не имело бы особого смысла, если бы остаток, вдвое превышающий одно стандартное отклонение, также не имел длины два стандартных отклонения. Выбор преобразований данных должен быть исследован до применения любого метода выбора / регрессии модели. Если данные имеют пропорциональную погрешность типа, обычно логарифм перед выбором регрессии не является уместным, поскольку тогда стандартные отклонения преобразуются в расстояния. В качестве альтернативы, мы можем изменить норму, чтобы быть минимизированной, чтобы приспособить соответствующие пропорциональные данные. То же самое относится к структуре ошибок Пуассона, мы можем либо взять квадратный корень данных для нормализации ошибки, либо изменить нашу норму для подгонки. Существуют проблемы, которые намного сложнее или даже неразрешимы, если мы не можем изменить норму для подгонки, например, статистика счета Пуассона по ядерному распаду, когда распад радионуклидов вводит экспоненциальную временную связь между данными подсчета и фактической массой, которая имела бы исходил из тех подсчетов, если бы не было распада. Зачем? Если мы вернемся назад и скорректируем скорости счета, у нас больше не будет статистики Пуассона, а остатки (или ошибки) от квадратного корня из исправленных значений больше не будут расстояниями. Если затем мы захотим выполнить тест на корректность соответствия данных с поправкой на затухание (например, AIC), нам придется сделать это каким-то образом, неизвестным моему скромному я. Открытый вопрос для читателей, если мы настаиваем на использовании MLR, Можем ли мы изменить его норму, чтобы учесть тип ошибки данных (желательно), или мы всегда должны преобразовывать данные, чтобы разрешить использование MLR (не так полезно)? Обратите внимание, что AIC не сравнивает методы регрессии для одной модели, а сравнивает разные модели для одного и того же метода регрессии.

Предположение АИК № 1. Казалось бы, MLR не ограничивается нормальными остатками, например, посмотрите этот вопрос о MLR и Student's-t . Далее, давайте предположим, что MLR подходит для нашей задачи, поэтому мы проследим его использование для сравнения значений AIC в теории. Далее мы предполагаем, что имеем 1) полную информацию, 2) одинаковый тип распределения остатков (например, оба нормальных, оба студента- т ) по крайней мере для 2 моделей. То есть мы попали в аварию, что две модели теперь должны иметь тип распределения остатков. Может ли это случиться? Да, возможно, но, конечно, не всегда.

Предположение АИК № 2. AIC связывает отрицательный логарифм количества (количество параметров в модели, деленное на расхождение Кульбака-Лейблера ). Это предположение необходимо? В статье об общих функциях потерь используется другая «дивергенция». Это приводит нас к вопросу, является ли эта другая мера более общей, чем дивергенция KL, почему мы не используем ее также для AIC?

Несоответствующая информация для AIC из дивергенции Кульбака-Лейблера : «Хотя ... часто интуитивно понятный как способ измерения расстояния между распределениями вероятностей, дивергенция Кульбака-Лейблера не является истинной метрикой». Скоро увидим почему.

Аргумент KL доходит до того, что разница между двумя вещами - моделью (P) и данными (Q)

DKL(PQ)=Xlog(dPdQ)dPdQdQ,

который мы признаем энтропией «P» относительно «Q».

Предположение АИК № 3. Большинство формул, включающих дивергенцию Кульбака – Лейблера, выполняются независимо от основания логарифма. Постоянный множитель мог бы иметь большее значение, если бы AIC связывал более одного набора данных одновременно. Как и при сравнении методов, если то любое число положительных чисел, которое все равно будет . Так как это произвольно, установка константы на конкретное значение в качестве определения также не является неуместной.AICdata,model1<AICdata,model2<

Предположение АИК № 4. Это было бы то, что AIC измеряет энтропию Шеннона или самооценку . «Что нам нужно знать, так это« Является ли энтропия тем, что нам нужно для метрики информации? »

Чтобы понять, что такое «самоинформация», нам следует нормализовать информацию в физическом контексте, это сделает любой. Да, я хочу, чтобы показатель информации имел физические свойства. Так как бы это выглядело в более общем контексте?

Уравнение свободной энергии Гиббса (Δгзнак равноΔЧАС-TΔS) связывает изменение энергии с изменением энтальпии минус абсолютная температура, умноженная на изменение энтропии. Температура является примером успешного типа нормализованного информационного контента, потому что, если один горячий и один холодный кирпичи находятся в контакте друг с другом в термически закрытой среде, тогда тепло будет течь между ними. Теперь, если мы прыгнем на это, не задумываясь, мы говорим, что тепло - это информация. Но это относительная информация, которая предсказывает поведение системы. Информационные потоки, пока равновесие не будет достигнуто, но равновесие чего? Температура, вот что, а не тепло, как в скорости частиц определенных масс частиц, я не говорю о молекулярной температуре, я говорю о грубой температуре двух кирпичей, которые могут иметь разные массы, сделанные из разных материалов, с разными плотностями и т. Д., и ничего из этого я не должен знать, все, что мне нужно знать, это то, что общая температура - это то, что уравновешивает. Таким образом, если один кирпич горячее, то у него больше относительного информационного содержания, а когда холоднее - меньше.

Теперь, если мне скажут, что один кирпич обладает большей энтропией, чем другой, ну и что? Это само по себе не предскажет, будет ли оно приобретать или терять энтропию при контакте с другим кирпичом. Итак, является ли энтропия полезной мерой информации? Да, но только если мы сравниваем один и тот же кирпичик с самим собой, таким образом, термин «самоинформация».

Отсюда вытекает последнее ограничение: для использования дивергенции KL все кирпичи должны быть одинаковыми. Таким образом, то, что делает AIC нетипичным индексом, состоит в том, что он не переносим между наборами данных (например, различными блоками), что не является особенно желательным свойством, к которому можно обратиться путем нормализации информационного содержимого. Является ли дивергенция KL линейной? Может быть да, а может быть и нет. Однако это не имеет значения, нам не нужно предполагать линейность, чтобы использовать AIC, и, например, сама энтропия, я не думаю, линейно связана с температурой. Другими словами, нам не нужна линейная метрика, чтобы использовать вычисления энтропии.

В этом тезисе есть один хороший источник информации об АПК . С пессимистической стороны это говорит: «Само по себе значение AIC для данного набора данных не имеет смысла». С оптимистической стороны это говорит о том, что модели, которые имеют близкие результаты, можно дифференцировать с помощью сглаживания для установления доверительных интервалов и многого другого.


1
Не могли бы вы указать основное различие между новым ответом и старым удаленным ответом? Кажется, есть некоторое совпадение.
Ричард Харди

2
Я занимался редактированием своего ответа в течение нескольких часов, когда он был удален. Было много изменений по сравнению с тем, когда я начинал, так как это была незавершенная работа, много читал и размышлял, и мои коллеги на этом сайте, кажется, не заботятся об этом, но не помогают ответить на что-либо. AIC, кажется, слишком хорош для критического обзора, как я посмел? Я завершил редактирование и снова опубликовал его. Я хочу знать, что неправильно в моем ответе. Я усердно работал над этим и пытался быть правдивым, и никто больше не беспокоился.
Карл

4
Не расстраивайся. Мой первый опыт здесь также был разочаровывающим, но позже я научился правильно задавать вопросы. ИМХО - хороший нейтральный тон и недопущение сильных мнений, не основанных на неопровержимых фактах. (Кстати, я поставил ваш вопрос на голосование, но все еще сомневаюсь в ответе.)
Ричард Харди

3
+1 Только для твоей преамбулы. Теперь я продолжу читать ответ.
Антони Пареллада

2
@AntoniParellada Вы помогли, не допустив удаления вопроса, что я ценю. Работать через AIC было сложно, и мне нужна помощь с этим. Конечно, некоторые из моих идей хороши, но у меня также есть копыто при заболевании ротовой полости, которое другие умы лучше ловят, чем я.
Карл

5

ег

Дивергенция KL является темой в теории информации и работает интуитивно (хотя и не строго) как мера расстояния между двумя распределениями вероятностей. В своем объяснении ниже я ссылаюсь на эти слайды от Шухуа Ху. Этот ответ все еще нуждается в цитировании для «ключевого результата».

егθ

d(f,gθ)=f(x)log(f(x))dxf(x)log(гθ(Икс))dИкс

Yеθ^(Y)θθ^(Y)YLКθ

Ey[f(x)log(gθ^(y)(x))dx]log(L(θ^(y)))+k.

fgθ^(y)


Как вы знаете, термин отклонение применительно к логарифмической вероятности является жаргонным и неточным. Я пропустил обсуждение этого, потому что для того, чтобы различия AIC имели сравнительную ценность, а не линейность, требуется только монотонность. Таким образом, я не вижу смысла в излишних попытках «визуализировать» то, чего, скорее всего, нет и в любом случае не нужно.
Карл

2
Я понимаю вашу точку зрения, что в последнем абзаце добавлена ​​красная сельдь, и я понимаю, что никого не нужно убеждать, что 2 * x занимает то же место, что и x. Будет ли справедливым сказать, что количество умножается на 2 "по соглашению"?
Бен Огорек

2
Что-то такое. Лично я бы проголосовал за «определяется как», потому что изначально он был выбран именно таким образом. Или, если рассматривать это во временной перспективе, любую константу, которую можно было бы использовать, в том числе один раз, нужно было бы выбрать и придерживаться, поскольку не существует эталонного стандарта для обеспечения применения шкалы.
Карл

4

2E[lnPr(D|θ)]2NE[lnLm,D]+2kmN=1NE[AICm,D]
kmmLm,D

m={θ}

2km/N

N

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.