Выбор переменной против выбора модели


12

Поэтому я понимаю, что выбор переменной является частью выбора модели. Но из чего конкретно состоит выбор модели? Это больше, чем следующее:

1) выберите дистрибутив для вашей модели

2) выбрать объясняющие переменные,?

Я спрашиваю об этом, потому что я читаю статью Burnham & Anderson: AIC против BIC, где они говорят об AIC и BIC при выборе модели. Читая эту статью, я понимаю, что думал о «выборе модели» как о «выборе переменной» (см. Комментарии BIC пытается найти истинную модель? )

Отрывок из статьи, в которой говорится о 12 моделях с возрастающей степенью «универсальности», и эти модели показывают «сужающиеся эффекты» (рисунок 1), когда KL-информация наносится на график против 12 моделей:

РАЗЛИЧНЫЕ ФИЛОСОФИИ И ЦЕЛЕВЫЕ МОДЕЛИ ... Несмотря на то, что целью BIC является более общая модель, чем целевая модель для AIC, модель, наиболее часто выбираемая здесь BIC, будет менее общей, чем Модель 7, если n не очень велико. Это может быть Модель 5 или 6. Известно (из многочисленных статей и симуляций в литературе), что в контексте сужающихся эффектов (рисунок 1) AIC работает лучше, чем BIC. Если это контекст реального анализа данных, то следует использовать AIC.

Как БИК когда - либо выбрать модель более сложной , чем АИК в выборе модели , я не понимаю! Что конкретно представляет собой «выбор модели» и когда конкретно BIC выбирает более «общую» модель, чем AIC?

Если мы говорим о выборе переменных, то BIC, безусловно, всегда должна выбирать модель с наименьшим количеством переменных, верно? , член в BIC всегда Штрафуется добавили переменные больше , чем термина в АПК. Но не является ли это неразумным, когда « целью BIC является более общая модель, чем целевая модель AIC »?2 k2ln(N)k2k

РЕДАКТИРОВАТЬ :

Из обсуждения в комментариях. Есть ли причина предпочитать AIC или BIC другим? мы видим небольшую дискуссию между @Michael Chernick и @ user13273 в комментариях, что наводит меня на мысль, что это не так тривиально:

Я думаю, что более уместно называть это обсуждение «выбором» или «ковариацией». Для меня выбор модели намного шире, включая определение распределения ошибок, формы функции связи и формы ковариат. Когда мы говорим об AIC / BIC, мы обычно находимся в ситуации, когда все аспекты построения модели фиксированы, кроме выбора ковариат. - user13273 13 августа '12 в 21:17

Принятие решения о том, что конкретные ковариаты для включения в модель, обычно совпадает с термином «выбор модели», и в названии книги содержится ряд книг с выбором модели, которые в первую очередь определяют, какие ковариаты / параметры модели следует включить в модель. - Майкл Черник 24 августа '12 в 14:44


3
Хороший вопрос! По крайней мере, часть решения состоит в том, чтобы различать «цель» BIC в терминологии этого документа - истинную модель, которую он выберет с очень большим размером выборки, - и модель, которую он выбирает с конкретной выборкой. размер. Тогда нет никакого противоречия при рассмотрении вложенной последовательности моделей с возрастающим нет. говоря о параметрах, говоря, что целью BIC является модель с 9 параметрами, хотя при умеренном размере выборки BIC выбирает модель с 4 параметрами, а AIC - с 6 параметрами.
Scortchi - Восстановить Монику

1
@ Scortchi: Хороший пример, но разве концепция целевой модели не является полностью избыточной, когда мы говорим о вложенных моделях? Если контекст представляет собой набор вложенных моделей (тогда мы говорим о выборе переменных): BIC может иметь более сложную целевую модель , но никогда не выберет более сложную модель, чем AIC. В любом другом контексте (речь идет о выборе модели) (с большим размером выборки) в статье утверждается, что BIC выберет более сложную («общую») целевую модель, чем AIC. Как это происходит конкретно, мне до сих пор не ясно.
Еросеннин

@Erosennin Вам когда-нибудь удалось найти ответ на этот ваш общий вопрос?
zipzapboing

Ответы:


3

Иногда разработчики моделей разделяют выбор переменных на отдельный этап в разработке модели. Например, они сначала проведут исследовательский анализ, изучат академическую литературу и отраслевые практики, а затем составят список переменных кандидатов. Они бы назвали этот шаг выбора переменной .

Затем они запустили множество различных спецификаций со многими различными комбинациями переменных, такими как модель OLS: где обозначает переменную в модели , Они выбрать лучшую модель из всех моделей вручную или в автоматическом режиме процедуры. Итак, эти люди назвали бы последний этап выбора модели .j m j m m

yi=jmXijmβjm+εi,
jmjmm

Это похоже на то, как в машинном обучении люди говорят о проектировании функций , когда сталкиваются с переменными. Вы вставляете функции в LASSO или аналогичные структуры, где вы строите модель, используя эти функции (переменные). В этом контексте имеет смысл разделить выбор переменных на отдельный шаг, потому что вы позволяете алгоритму выбирать правильные коэффициенты для переменных, а не исключать какие-либо переменные. Ваше суждение (относительно того, какая переменная входит в модель) изолированно на этапе выбора переменной, а остальное зависит от алгоритма подбора.

В контексте статьи, которую вы цитировали, все это не имеет значения. Бумага использует BIC или AIC для выбора между различными характеристиками модели. В данном случае не имеет значения, был ли выбор переменной в качестве отдельного шага. Все, что имеет значение, это то, какие переменные входят в какую-либо конкретную спецификацию модели , и вы смотрите на их BIC / AIC, чтобы выбрать лучшее. Они учитывают размеры выборки и количество переменных.m

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.