Парадокс в выборе модели (AIC, BIC, объяснить или предсказать?)

Прочитав книгу Галита Шмуэли «Объяснить или предсказать» (2010), я озадачен очевидным противоречием. Есть три помещения,

Выбор модели на основе BIC по сравнению с BIC (конец стр. 300 - начало стр. 301): проще говоря, AIC следует использовать для выбора модели, предназначенной для прогнозирования, в то время как BIC следует использовать для выбора модели для объяснения . Кроме того (не в приведенном выше документе), мы знаем, что при некоторых условиях BIC выбирает истинную модель из набора моделей-кандидатов; истинная модель - это то, что мы ищем в объяснительном моделировании (конец с. 293).
Простая арифметика: AIC выберет более крупную модель, чем BIC, для выборок размером 8 или больше (удовлетворяющих $\text{ln}(n)>2$ из-за различных штрафов за сложность в AIC по сравнению с BIC).
«Истинная» модель (то есть модель с правильными регрессор и правильной функциональной формой , но несовершенно оцененными коэффициентами) не может быть лучшей моделью для прогнозирования (стр 307) . : Регрессионная модель с отсутствующим предсказателем может быть лучше модель прогнозирования - введение смещения из-за отсутствующего предиктора может быть перевешено уменьшением дисперсии из-за неточности оценки.

Пункты 1. и 2. предполагают, что большие модели могут быть лучше для прогнозирования, чем более экономные модели. Между тем, пункт 3. дает противоположный пример, где более скупая модель лучше подходит для прогнозирования, чем более крупная модель. Я нахожу это загадочным.

Вопросов:

Как может возникнуть явное противоречие между точками {1. и 2.} и 3. быть объяснено / решено?
В свете пункта 3. не могли бы вы дать интуитивно понятное объяснение того, почему и как большая модель, выбранная AIC, на самом деле лучше для прогнозирования, чем более экономная модель, выбранная BIC?

— Ричард Харди
источник

Я не понимаю парадокс / противоречие. AIC эффективен (асимптотически минимизирует ожидаемую ошибку предсказания), а BIC согласован (асимптотически выбирает истинный порядок). Пункт 3) говорит, что отклонения могут быть перевешены. Очевидно, нет никакой гарантии, что один из них лучше другого в определенной выборке. Таким образом, ваш «парадокс» заключается в том, что для данной выборки AIC может быть не лучшим вариантом для прогнозирования, что неудивительно. Для вашего Q2: если увеличение смещения, вызванное меньшей моделью BIC, больше, чем увеличение дисперсии большего AIC, AIC лучше.

— Хейзеб

Я бы посоветовал вам взглянуть на первые главы «Выбор модели и усреднение модели» Нильса Хьорта и Герды Класкенс, возможно, это прояснит ситуацию.

— Хейзеб

Они не должны рассматриваться в одном и том же контексте; точки 1 и 2 имеют разные контексты. Как для AIC, так и для BIC сначала исследуется, какая комбинация параметров и в каком числе дает наилучшие показатели (Некоторые авторы имеют эпилептические припадки, когда я использую слово indexв данном контексте. Игнорируйте их или посмотрите индекс в словаре.) В пункте 2 AIC - более богатая модель, где более богатый означает выбор моделей с большим количеством параметров, только иногда, потому что часто оптимальная модель AIC - это то же количество моделей параметров, что и BIC. выбор. То есть, если AIC и BIC выбирают модели, имеющие одинаковое количество параметров, то утверждается, что AIC будет лучше предсказывать, чем BIC. Тем не менее, может произойти обратное, если BIC максимизируется при выбранной модели с меньшим количеством параметров (но без гарантий). Sober (2002) пришел к выводу, что AIC измеряет точность прогнозирования, в то время как BIC измеряет достоверность соответствия, где точность прогнозирования может означать прогнозирование y вне предельного диапазона значений x. Когда снаружи, часто менее оптимальный AIC с пропущенными слабо прогнозирующими параметрами лучше прогнозирует экстраполированные значения, чем оптимальный индекс AIC из большего количества параметров в выбранной модели. Попутно отмечу, что AIC и ML не устраняют необходимость в тестировании ошибок экстраполяции, которое является отдельным тестом для моделей. Это может быть сделано путем удержания крайних значений из набора «обучение» и вычисления ошибки между экстраполированной моделью «после обучения» и удержанными данными.

Теперь BIC предположительно является меньшим предиктором ошибок для значений y в пределах предельных значений диапазона x . Повышение качества подгонки часто достигается ценой смещения регрессии (для экстраполяции), где ошибка уменьшается путем введения этого смещения. Это, например, часто сглаживает наклон, чтобы разделить знак средних левых стихов вправо $f(x)-y$ остатки (представьте больше отрицательных остатков с одной стороны и больше положительных остатков с другой), тем самым уменьшая общую ошибку. Таким образом, в этом случае мы запрашиваем наилучшее значение y при заданном значении x, а для AIC мы более тщательно запрашиваем наилучшие функциональные отношения между x и y. Одно из различий между ними заключается, например, в том, что BIC, при прочих равных параметрах, будет иметь лучший коэффициент корреляции между моделью и данными, а AIC будет иметь лучшую ошибку экстраполяции, измеренную как ошибку y-значения для данного экстраполированного x-значения.

Точка 3 - иногда утверждение при некоторых условиях

когда данные очень шумные (большой $σ$ );
когда истинные абсолютные значения пропущенных параметров (в нашем
примере $β_2$ ) маленькие;
когда предикторы сильно коррелированы; и
когда размер выборки небольшой или диапазон пропущенных переменных невелик.

На практике правильная форма уравнения не означает, что подгонка к нему даст правильные значения параметров из-за шума, и чем больше шума, тем лучше. То же самое происходит с R $^2$ по сравнению с настроенным R $^2$ и высокая коллинеарность. То есть иногда при добавлении параметра настраивается R $^2$ ухудшается в то время как R $^2$ улучшается.

Спешу отметить, что эти заявления оптимистичны. Как правило, модели являются неправильными, и часто лучшая модель будет обеспечивать соблюдение нормы, которая не может использоваться с AIC или BIC, или для их применения предполагается неправильная остаточная структура, и требуются альтернативные меры. В моей работе это всегда так.

— деревенщина
источник

Я не уверен, что вы отвечаете на вопросы. Я знаю об общих ограничениях информационных критериев, но это не то, о чем я спрашиваю. Более того, я не понимаю вашу точку зрения, если AIC и BIC имеют ОДНОВРЕМЕННОЕ количество параметров, то утверждают, что AIC будет лучше предсказывать, чем BIC . Когда альтернативные модели имеют одинаковое количество параметров, сравнение AIC и BIC сводится к сравнению вероятностей, и AIC и BIC выбирают одну и ту же альтернативу. Не могли бы вы также уточнить, что вы подразумеваете под лучшей моделью, которая будет обеспечивать соблюдение нормы, которая не может использоваться с AIC или BIC ?

— Ричард Харди

Продолжение: Пока у нас есть вероятность и степени свободы, мы можем рассчитать AIC и BIC.

— Ричард Харди

@RichardHardy True: пока у нас есть вероятность и степени свободы, мы можем рассчитать AIC и BIC. Тем не менее, расчет будет неоптимальным и вводящим в заблуждение, если остаточные значения являются Student-T, а мы не использовали AIC и BIC для Student-T. В отличие от Student's-T, есть распределения остатков, для которых ML может быть неопубликован, например, Gamma, Beta и т. Д.

— Carl

Спасибо за пояснение! Я считаю, что должен существовать ответ на поставленные выше вопросы, достаточно простой и общий. Точнее говоря, я не думаю, что это должно включать «некрасивые» случаи и сбои AIC и BIC. Наоборот, я чувствую, что должен быть довольно простой случай, который мог бы проиллюстрировать, почему парадокс является только очевидным, а не реальным. В то же время ваш второй абзац, кажется, идет в противоположном направлении. Не то чтобы это не было ценно само по себе, но я боюсь, что это может отвлечь нас от настоящих основных вопросов.

— Ричард Харди

@RichardHardy Часто практический вопрос неразрешим для AIC. Например, сравнение одних и тех же или разных моделей с разными нормами и / или преобразованиями данных или анализ сложных норм, например, уменьшение ошибок по Тихонову, регуляризация производного параметра, общие инверсии и т. Д. Это необходимо также упомянуть, чтобы кто-то не использовал AIC БИК неверно.

— Карл