Какая точная формула используется в R lm()
для Скорректированного R-квадрата? Как я могу интерпретировать это?
Скорректированные R-квадрат формулы
Кажется, существует несколько формул для расчета скорректированного R-квадрата.
- Формула Вери:
- Формула Макнемара:
- Формула Господа:
- Формула Штейна:
Описание учебников
- Согласно учебнику Филда « Обнаружение статистики с использованием R» (2012, стр. 273) R использует уравнение Вэрри, которое «говорит нам, сколько дисперсии в Y будет учтено, если модель была получена из совокупности, из которой была взята выборка». Он не дает формулу для Wherry. Он рекомендует использовать формулу Штейна (вручную), чтобы проверить, насколько хорошо модель выполняет перекрестную проверку.
- Kleiber / Zeileis, Applied Econometrics with R (2008, p. 59) утверждают, что это «скорректированный R-квадрат Тейла», и не говорят точно, как его интерпретация отличается от множественного R-квадрата.
- Далгаард, Вводная статистика с R (2008, стр. 113) пишет, что «если вы умножите [скорректированный R-квадрат] на 100%, это можно интерпретировать как«% уменьшения дисперсии »». Он не говорит, какой формуле это соответствует.
Ранее я думал и читал широко, что R-квадрат штрафует за добавление дополнительных переменных в модель. Теперь использование этих разных формул, по-видимому, требует разных интерпретаций. Я также посмотрел на связанный вопрос о переполнении стека (в чем разница между множественным R-квадратом и скорректированным R-квадратом в регрессии по методу наименьших квадратов с одной переменной? ) И статистическим словарем школы Уортона в UPenn .
Вопросов
- Какая формула используется для скорректированного r-квадрата R
lm()
? - Как я могу интерпретировать это?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
где ans $ r.squared = R ^ 2; n = n, rdf = остаток df, df.int = перехватить df (0 или 1).