Я думаю, что этот подход ошибочен, но, возможно, будет более полезным, если я объясню почему. Желание узнать лучшую модель с учетом некоторой информации о большом количестве переменных вполне понятно. Более того, это ситуация, в которой люди, кажется, регулярно оказываются. Кроме того, многие учебники (и курсы) по регрессии охватывают методы поэтапного отбора, что подразумевает, что они должны быть законными. К сожалению, однако, это не так, и сопряжение этой ситуации и цели довольно трудно успешно преодолеть. Ниже приведен список проблем с автоматическими пошаговыми процедурами выбора модели (приписан Фрэнку Харреллу и скопирован здесь ):
- Это дает R-квадрат значения, которые сильно смещены, чтобы быть высокими.
- Тесты F и хи-квадрат, указанные рядом с каждой переменной в распечатке, не имеют заявленного распределения.
- Метод дает доверительные интервалы для эффектов и прогнозируемых значений, которые являются ложно узкими; см. Альтман и Андерсен (1989).
- Это дает p-значения, которые не имеют правильного значения, и правильная коррекция для них является сложной проблемой.
- Это дает смещенные коэффициенты регрессии, которые нуждаются в усадке (коэффициенты для остальных переменных слишком велики; см. Tibshirani [1996]).
- Это имеет серьезные проблемы при наличии коллинеарности.
- Он основан на методах (например, F-тесты для вложенных моделей), которые должны были использоваться для проверки заранее определенных гипотез.
- Увеличение размера выборки не очень помогает; см. Derksen and Keselman (1992).
- Это позволяет нам не думать о проблеме.
- Он использует много бумаги.
Вопрос в том, что же такого плохого в этих процедурах / почему возникают эти проблемы? Большинство людей, прошедших базовый курс регрессии, знакомы с концепцией регрессии к среднему значению , поэтому я использую это для объяснения этих проблем. (Хотя поначалу это может показаться не по теме, потерпите меня, обещаю, что это актуально.)
Представьте тренера средней школы в первый день тренировок. Тридцать детей появляются. Эти дети имеют некоторый базовый уровень внутренних способностей, к которым ни тренер, ни кто-либо еще не имеют прямого доступа. В результате тренер делает единственное, что он может сделать, это заставить их всех пробежать 100 метров. Время, по-видимому, является мерой их внутренней способности и принимается как таковое. Тем не менее, они являются вероятностными; некоторая доля того, как хорошо кто-то делает, основана на его реальных способностях, а некоторая доля случайна. Представьте, что истинная ситуация такова:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
Результаты первой гонки показаны на следующем рисунке вместе с комментариями тренера для детей.
Обратите внимание, что разделение детей по их расовому времени накладывает отпечаток на их внутренние способности - этот факт имеет решающее значение. Хвалив одних и крича на других (как обычно делают тренеры), он заставляет их снова бежать. Вот результаты второй гонки с реакцией тренера (смоделированной из той же модели выше):
Обратите внимание, что их внутренние способности идентичны, но время отскочило относительно первой расы. С точки зрения тренера, те, на кого он кричал, имели тенденцию к улучшению, а те, кого он хвалил, имели тенденцию к худшему (я адаптировал этот конкретный пример из цитаты Канемана, приведенной на вики-странице), хотя на самом деле регрессия к среднему значению является простой математической следствие того, что тренер отбирает спортсменов для команды на основе частично случайного измерения.
Теперь, какое это имеет отношение к методам автоматического (например, пошагового) выбора модели? Разработка и подтверждение модели, основанной на том же наборе данных, иногда называется дноуглублением данных, Хотя между переменными существует некоторая базовая связь, и ожидается, что более сильные отношения приведут к более сильным оценкам (например, более высокая t-статистика), это случайные переменные, и полученные значения содержат ошибку. Таким образом, когда вы выбираете переменные на основе более высоких (или более низких) реализованных значений, они могут быть такими из-за их истинного значения, ошибки или обоих. Если вы продолжите в том же духе, вы будете удивлены так же, как и тренер после второй гонки. Это верно, независимо от того, выбираете ли вы переменные на основе высокой t-статистики или низкой корреляции. Да, использование AIC лучше, чем использование p-значений, потому что это наказывает модель за сложность, но AIC сама по себе является случайной величиной (если вы проводите исследование несколько раз и подходите к одной и той же модели, AIC будет колебаться, как все остальное). К несчастью,
Я надеюсь, что это полезно.