В психологии и других областях часто используется форма ступенчатой регрессии, которая включает в себя следующее:
- Посмотрите на остальные предикторы (сначала их нет в модели) и определите предиктор, который приведет к наибольшему изменению r-квадрата;
- Если значение p изменения r-квадрата меньше, чем альфа (обычно 0,05), включите этот предиктор и вернитесь к шагу 1, в противном случае остановите.
Например, см. Эту процедуру в SPSS .
Процедура регулярно подвергается критике по широкому кругу причин (см. Это обсуждение на веб-сайте Stata со ссылками ).
В частности, сайт Stata обобщает несколько комментариев Фрэнка Харрелла. Я заинтересован в претензии:
[ступенчатая регрессия] дает значения R-квадрата, которые сильно смещены, чтобы быть высокими.
В частности, некоторые из моих текущих исследований посвящены оценке r-квадрата населения . Под r-квадратом населения я понимаю процент дисперсии, который объясняется уравнением формирования данных о населении. Большая часть существующей литературы, которую я рецензирую, использует пошаговые регрессионные процедуры, и я хочу знать, являются ли предоставленные оценки предвзятыми и, если да, то насколько. В частности, типичное исследование будет иметь 30 предикторов, n = 200, альфа-вход 0,05 и оценки r-квадрата около 0,50.
Что я знаю:
- Асимптотически любой предиктор с ненулевым коэффициентом будет статистически значимым предиктором, и r-квадрат будет равен скорректированному r-квадрату. Таким образом, асимптотически ступенчатая регрессия должна оценивать истинное уравнение регрессии и r-квадрат истинного населения.
- При меньших размерах выборки возможное отсутствие некоторых предикторов приведет к меньшему r-квадрату, чем если бы все предикторы были включены в модель. Но также обычное смещение r-квадрата к данным выборки увеличит r-квадрат. Таким образом, моя наивная мысль состоит в том, что потенциально эти две противоборствующие силы могут при определенных условиях привести к непредвзятому r-квадрату. И, в более общем смысле, направление смещения будет зависеть от различных характеристик данных и критериев альфа-включения.
- Установка более строгого критерия альфа-включения (например, 0,01, 0,001 и т. Д.) Должна снизить ожидаемую предполагаемую величину r-квадрата, поскольку вероятность включения любого предиктора в любое поколение данных будет меньше.
- В целом, r-квадрат - это смещенная вверх оценка r-квадрата населения, и степень этого смещения увеличивается с увеличением количества предикторов и меньших размеров выборки.
Вопрос
Итак, наконец, мой вопрос:
- В какой степени r-квадрат из ступенчатой регрессии приводит к смещенной оценке r-квадрата населения?
- В какой степени это смещение связано с размером выборки, числом предикторов, критерием альфа-включения или свойствами данных?
- Есть ли ссылки на эту тему?