Я хочу выбрать модели, используя regsubsets()
. У меня есть фрейм данных с именем olympiadaten (загруженные данные: http://www.sendspace.com/file/8e27d0 ). Я сначала присоединяю этот фрейм данных, а затем начинаю анализировать, мой код:
attach(olympiadaten)
library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp +
Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")
summary(lm(Gesamt~ExpHealth))
скриншот сюжета:
Теперь проблема в том, что я хочу установить «лучшую» модель снова «вручную» и посмотреть на нее, но значение скорректированного квадрата R не совпадает с выходным значением regsubsets? Это также относится и к другим моделям, например, когда я делаю простейшую модель на графике:
summary(lm(Gesamt~ExpHealth))
Графика говорит, что он должен иметь скорректированный квадрат R примерно 0,14, но когда я смотрю на результат, я получаю значение 0,06435.
Вот вывод summary(lm(Gesamt~ExpHealth))
:
Call:
lm(formula = Gesamt ~ ExpHealth)
Residuals:
Min 1Q Median 3Q Max
-18.686 -9.856 -4.496 1.434 81.980
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.0681 6.1683 -0.497 0.6203
ExpHealth 1.9903 0.7805 2.550 0.0127 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.71 on 79 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.07605, Adjusted R-squared: 0.06435
F-statistic: 6.502 on 1 and 79 DF, p-value: 0.01271
Я не знаю, что я мог сделать неправильно, любая помощь будет оценена.
И последнее, но не менее важное, еще несколько вопросов:
- В чем разница между выбором моделей по AIC и прил. R в квадрате?
- Оба измеряют соответствие и распознают количество переменных, поэтому AIC выбирает не лучшую модель, а модель с самым высоким значением adj. г в квадрате?
- Когда у меня 12 переменных, это значит, что у модели возможностей, верно?
- Так
regsubsets()
вычисляет ли команда каждую модель и показывает два лучших (nbest=2
) каждого размера? - Если да, могу ли я получить «лучшую» модель?
- И когда я делаю AIC с использованием обратного выбора (начиная с модели, которая содержит все переменные), это также заканчивается той же моделью, которая
regsubsets()
говорит, что лучше?