Они не должны рассматриваться в одном и том же контексте; точки 1 и 2 имеют разные контексты. Как для AIC, так и для BIC сначала исследуется, какая комбинация параметров и в каком числе дает наилучшие показатели (Некоторые авторы имеют эпилептические припадки, когда я использую слово indexв данном контексте. Игнорируйте их или посмотрите индекс в словаре.) В пункте 2 AIC - более богатая модель, где более богатый означает выбор моделей с большим количеством параметров, только иногда, потому что часто оптимальная модель AIC - это то же количество моделей параметров, что и BIC. выбор. То есть, если AIC и BIC выбирают модели, имеющие одинаковое количество параметров, то утверждается, что AIC будет лучше предсказывать, чем BIC. Тем не менее, может произойти обратное, если BIC максимизируется при выбранной модели с меньшим количеством параметров (но без гарантий). Sober (2002) пришел к выводу, что AIC измеряет точность прогнозирования, в то время как BIC измеряет достоверность соответствия, где точность прогнозирования может означать прогнозирование y вне предельного диапазона значений x. Когда снаружи, часто менее оптимальный AIC с пропущенными слабо прогнозирующими параметрами лучше прогнозирует экстраполированные значения, чем оптимальный индекс AIC из большего количества параметров в выбранной модели. Попутно отмечу, что AIC и ML не устраняют необходимость в тестировании ошибок экстраполяции, которое является отдельным тестом для моделей. Это может быть сделано путем удержания крайних значений из набора «обучение» и вычисления ошибки между экстраполированной моделью «после обучения» и удержанными данными.
Теперь BIC предположительно является меньшим предиктором ошибок для значений y в пределах предельных значений диапазона x . Повышение качества подгонки часто достигается ценой смещения регрессии (для экстраполяции), где ошибка уменьшается путем введения этого смещения. Это, например, часто сглаживает наклон, чтобы разделить знак средних левых стихов вправое( х ) - уостатки (представьте больше отрицательных остатков с одной стороны и больше положительных остатков с другой), тем самым уменьшая общую ошибку. Таким образом, в этом случае мы запрашиваем наилучшее значение y при заданном значении x, а для AIC мы более тщательно запрашиваем наилучшие функциональные отношения между x и y. Одно из различий между ними заключается, например, в том, что BIC, при прочих равных параметрах, будет иметь лучший коэффициент корреляции между моделью и данными, а AIC будет иметь лучшую ошибку экстраполяции, измеренную как ошибку y-значения для данного экстраполированного x-значения.
Точка 3 - иногда утверждение при некоторых условиях
когда данные очень шумные (большой σ);
когда истинные абсолютные значения пропущенных параметров (в нашем
примереβ2) маленькие;
когда предикторы сильно коррелированы; и
когда размер выборки небольшой или диапазон пропущенных переменных невелик.
На практике правильная форма уравнения не означает, что подгонка к нему даст правильные значения параметров из-за шума, и чем больше шума, тем лучше. То же самое происходит с R2 по сравнению с настроенным R2и высокая коллинеарность. То есть иногда при добавлении параметра настраивается R2 ухудшается в то время как R2 улучшается.
Спешу отметить, что эти заявления оптимистичны. Как правило, модели являются неправильными, и часто лучшая модель будет обеспечивать соблюдение нормы, которая не может использоваться с AIC или BIC, или для их применения предполагается неправильная остаточная структура, и требуются альтернативные меры. В моей работе это всегда так.