Stepwise AIC - Существуют ли противоречия вокруг этой темы?


17

Я читал бесчисленные посты на этом сайте, которые невероятно против использования пошагового выбора переменных, используя любой критерий, будь то на основе p-значений, AIC, BIC и т. Д.

Я понимаю, почему эти процедуры в целом достаточно плохи для выбора переменных. вероятно, знаменитый пост Ганга Ганга ясно показывает, почему; в конечном счете, мы проверяем гипотезу на том же наборе данных, который мы использовали, чтобы выдвинуть гипотезу, которая представляет собой дноуглубление данных. Кроме того, на значения p влияют такие величины, как коллинеарность и выбросы, которые сильно искажают результаты и т. Д.

Тем не менее, я изучал прогнозирование временных рядов совсем недавно и наткнулся на уважаемый учебник Хиндмана, в котором он упоминает здесь об использовании пошагового отбора для нахождения оптимального порядка моделей ARIMA, в частности. Фактически, в forecastпакете в R известный алгоритм, известный как auto.arimaпо умолчанию, использует пошаговый отбор (с AIC, а не с p-значениями). Он также критикует выбор функций на основе p-значения, который хорошо сочетается с несколькими публикациями на этом сайте.

В конечном счете, мы всегда должны каким-то образом пересекать валидацию в конце, если целью является разработка хороших моделей для прогнозирования / прогнозирования. Однако, безусловно, это является некоторым разногласием здесь, когда речь идет о самой процедуре для показателей оценки, отличных от p-значений.

У кого-нибудь есть мнения по поводу использования пошаговой АПК в этом контексте, но также и в целом вне этого контекста? Меня учили верить, что любой поэтапный отбор плох, но, честно говоря, auto.arima(stepwise = TRUE)дает мне лучшие результаты из выборки, чем, auto.arima(stepwise = FALSE)но, возможно, это просто совпадение.


Одна из немногих вещей, с которыми могут согласиться синоптики, заключается в том, что выбор одной «лучшей» модели обычно работает не так хорошо, как объединение нескольких разных моделей.
С. Коласса - Восстановить Монику

Ответы:


20

Здесь есть несколько разных вопросов.

  • Вероятно, основная проблема заключается в том, что выбор модели (будь то использование значений p или AIC, пошаговых или всех подмножеств или чего-то еще) в первую очередь проблематичен для вывода (например, получение p-значений с соответствующей ошибкой типа I, доверительных интервалов с соответствующим охватом). Для прогноза выбор модели действительно может выбрать лучшее место на оси компромисса смещения и улучшить ошибку вне выборки.
  • Для некоторых классов моделей AIC асимптотически эквивалентна ошибке CV в однозначном порядке [см., Например, http://www.petrkeil.com/?p=836 ], поэтому использование AIC в качестве вычислительно эффективного прокси для CV является разумным.
  • Пошаговый отбор часто преобладает от выбора другой модели (или усреднения методы ) (все подмножества, если это возможно в вычислительном отношении, или методы усадки). Но это просто и легко реализовать, и если ответ достаточно ясен (некоторые параметры соответствуют сильным сигналам, другие - слабым, мало промежуточных), то он даст разумные результаты. Опять же, есть большая разница между умозаключениями и предсказаниями. Например, если у вас есть пара сильно коррелированных предикторов, выбор неверного (с «истинной» / причинно-следственной точки зрения) является большой проблемой для вывода, но выбор того, который дает вам лучший AIC, является разумным стратегия прогнозирования (хотя и та, которая потерпит неудачу, если вы попытаетесь предсказать ситуацию, когда корреляция предикторов изменится ...)

Итог: для данных среднего размера с разумным отношением сигнал / шум ступенчатый выбор на основе AIC действительно может дать оправданный прогноз модель; см. Murtaugh (2009) для примера.

Мурто, Пол А. «Эффективность нескольких методов переменного отбора, применяемых к реальным экологическим данным». Экология буквы 12, нет. 10 (2009): 1061-1068.


п

Пожалуйста, не заводите меня на Бернхэма и Андерсона. github.com/bbolker/discretification
Бен Болкер,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.