Я пытаюсь понять логику F-теста ANOVA в Простом линейном регрессионном анализе. У меня такой вопрос: Когда значение F, т.е.
MSR/MSE
большое, мы принимаем модель как значимую. Какая логика стоит за этим?
Я пытаюсь понять логику F-теста ANOVA в Простом линейном регрессионном анализе. У меня такой вопрос: Когда значение F, т.е.
MSR/MSE
большое, мы принимаем модель как значимую. Какая логика стоит за этим?
Ответы:
В простейшем случае, когда у вас есть только один предиктор (простая регрессия), скажем, , тест говорит вам, объясняет ли включение большую часть дисперсии, наблюдаемой в по сравнению с нулевой моделью (только перехват) , Идея заключается в том, чтобы проверить, является ли добавленная объясненная дисперсия (общая дисперсия, TSS, минус остаточная дисперсия, RSS) достаточно большой, чтобы ее можно было рассматривать как «значительную величину». Здесь мы сравниваем модель с одним предиктором или пояснительной переменной с базовой линией, которая является просто «шумом» (ничего, кроме большого среднего).
Аналогично, вы можете вычислить статистику в настройке множественной регрессии: в этом случае это составляет тест всех предикторов, включенных в модель, что в рамках структуры HT означает, что мы задаемся вопросом, полезен ли какой-либо из них для прогнозирования ответа переменная. Это причина, по которой вы можете столкнуться с ситуациями, когда F- тест для всей модели является значительным, тогда как некоторые из t или z- тестов, связанных с каждым коэффициентом регрессии, не имеют значения.
В статистика выглядит как
где - количество параметров модели, а n - количество наблюдений. Эта величина должна быть отнесена к распределению F p - 1 , n - p для критического или p- значения. Это относится и к простой регрессионной модели, и, очевидно, имеет некоторую аналогию с классической структурой ANOVA.
Примечание. Когда у вас есть более одного предиктора, вы можете задаться вопросом, «снижает» ли качество подбора модели рассмотрение только поднабора этих предикторов. Это соответствует ситуации, когда мы рассматриваем вложенные модели . Это в точности та же ситуация, что и выше, где мы сравниваем данную регрессионную модель с нулевой моделью (без предикторов). Чтобы оценить уменьшение объясненной дисперсии, мы можем сравнить остаточную сумму квадратов (RSS) в обеих моделях (то есть то, что осталось необъяснимым, если учесть влияние предикторов, присутствующих в модели). Пусть и M 1 обозначают базовую модель (с pпараметры) и модель с дополнительным предиктором ( параметры), то если RSS M 1 - RSS M 0 мала, мы считаем, что модель меньшего размера работает так же хорошо, как и модель большего размера. Хорошей статистикой для использования будет отношение таких СС, ( RSS M 1 - RSS M 0 ) / RSS M 0 , взвешенное по степеням свободы ( p - q для числителя и n - pдля знаменателя). Как уже было сказано, можно показать, что эта величина следует распределению (или Фишера-Снедекора) с p - q и n - p степенями свободы. Если наблюдаемое F больше соответствующего квантиля F при данном α (обычно α = 0,05 ), то мы бы пришли к выводу, что большая модель делает «лучшую работу». (Это ни в коем случае не означает, что модель верна с практической точки зрения!)
Обобщением вышеприведенной идеи является критерий отношения правдоподобия .
Если вы используете R, вы можете поиграть с вышеуказанными понятиями, как это:
df <- transform(X <- as.data.frame(replicate(2, rnorm(100))),
y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df)) # "ANOVA view"
summary(lm(y ~ V1, df)) # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0) # test of V2
anova()
функция в R возвращает отдельную строку для каждого предиктора в модели. Например, anova(lm0)
выше возвращает строку для V1
, V2
и Residuals
(и не всего). Таким образом, мы получаем две F * статистики для этой модели. Как это меняет интерпретацию статистики F *, представленной в таблице ANOVA?
anova()
для сравнения GLM. При применении к объекту lm
или aov
, он отображает отдельные эффекты (SS) для каждого термина в модели и не показывает TSS. (Раньше я применял это наоборот, а именно, после подбора ANOVA aov()
, я могу использовать, summary.lm()
чтобы получить представление о контрастах лечения.) Однако между summary.lm()
и summary.aov()
, особенно в отношении последовательной подгонки , существуют тонкие проблемы .