после выполнения пошагового выбора на основе критерия AIC вводить в заблуждение взгляды на p-значения для проверки нулевой гипотезы о том, что каждый истинный коэффициент регрессии равен нулю.
Действительно, p-значения представляют вероятность увидеть статистику теста, по крайней мере, такую же экстремальную, как и та, которая у вас есть, когда нулевая гипотеза верна. Если ЧАС0 истинно, значение p должно иметь равномерное распределение.
Но после поэтапного выбора (или даже после множества других подходов к выбору модели) p-значения тех членов, которые остаются в модели, не обладают этим свойством, даже когда мы знаем, что нулевая гипотеза верна.
Это происходит потому, что мы выбираем переменные, которые имеют или имеют тенденцию иметь небольшие значения p (в зависимости от конкретных критериев, которые мы использовали). Это означает, что p-значения переменных, оставленных в модели, обычно намного меньше, чем они были бы, если бы мы подгоняли одну модель. Обратите внимание, что выбор будет в среднем выбирать модели, которые кажутся подходящими даже лучше, чем истинная модель, если класс моделей включает в себя истинную модель или если класс моделей достаточно гибок, чтобы близко приближаться к истинной модели.
[Кроме того, и по существу по той же причине оставшиеся коэффициенты смещены от нуля, а их стандартные ошибки смещены на низкое значение; это, в свою очередь, также влияет на доверительные интервалы и прогнозы - например, наши прогнозы будут слишком узкими.]
Чтобы увидеть эти эффекты, мы можем взять множественную регрессию, где некоторые коэффициенты равны 0, а некоторые нет, выполнить пошаговую процедуру, а затем для тех моделей, которые содержат переменные с нулевыми коэффициентами, посмотреть на получаемые p-значения.
(В той же симуляции вы можете посмотреть на оценки и стандартные отклонения для коэффициентов и обнаружить, что они также влияют на ненулевые коэффициенты.)
Короче говоря, неуместно считать обычные p-значения значимыми.
Я слышал, что нужно рассматривать все переменные, оставшиеся в модели, как значимые.
Относительно того, должны ли все значения в модели после пошагового «считаться значимыми», я не уверен, насколько это полезный способ взглянуть на это. Что значит «значимость»?
Вот результат запуска R stepAIC
с настройками по умолчанию на 1000 смоделированных выборках с n = 100 и десятью переменными-кандидатами (ни одна из которых не связана с ответом). В каждом случае подсчитывалось количество слагаемых в модели:
Только 15,5% времени была выбрана правильная модель; в остальное время модель включала термины, которые не отличались от нуля. Если на самом деле возможно, что в наборе переменных-кандидатов есть переменные с нулевым коэффициентом, у нас, вероятно, будет несколько членов, где истинный коэффициент равен нулю в нашей модели. В результате не ясно, что это хорошая идея, чтобы рассматривать их как ненулевые.