Сравнение двух моделей с использованием функции anova () в R


32

Из документации для anova():

Когда задана последовательность объектов, anova проверяет модели друг против друга в указанном порядке ...

Что значит проверять модели друг против друга? И почему порядок имеет значение?

Вот пример из учебника GenABEL :

    >  modelAdd = lm(qt~as.numeric(snp1))
    >  modelDom = lm(qt~I(as.numeric(snp1)>=2))
    >  modelRec = lm(qt~I(as.numeric(snp1)>=3))
     anova(modelAdd, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ as.numeric(snp1)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2320                      
    2   2371 2320  1    0.0489     0.82
     anova(modelDom, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 2)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2322                      
    2   2371 2320  1      1.77     0.18
     anova(modelRec, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 3)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)  
    1   2372 2324                        
    2   2371 2320  1      3.53    0.057 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Как мне интерпретировать этот вывод?

Ответы:


31

Когда вы используете anova(lm.1,lm.2,test="Chisq"), он выполняет тест хи-квадрат для сравнения lm.1и lm.2(т.е. он проверяет, является ли уменьшение остаточной суммы квадратов статистически значимым или нет). Обратите внимание, что это имеет смысл, только если lm.1и lm.2являются вложенными моделями.

Например, в 1-й анове, которую вы использовали, значение p теста составляет 0,82. Это означает, что подогнанная модель «modelAdd» существенно не отличается от modelGen на уровне . Однако, используя значение p в 3-й области, модель «modelRec» существенно отличается от модели «modelGen» при .αзнак равно0,05αзнак равно0,1

Проверьте ANOVA для Подходов линейной модели также.


1
Но означает ли это что-нибудь о том, лучше ли один из двух? Благодарность!
Qed

5
Это зависит от того, как вы определяете термин «лучше». Если вы определите его как модель, которая предоставляет меньше остаточной суммы квадратов, тогда ответ - да. Это потому, что этот тест сравнивает уменьшение остаточной суммы квадратов.
Стат

3
С другой стороны, если две модели существенно не отличаются, можно ли утверждать, что более простая модель «лучше»? Я думаю о парсимонии здесь.
Сининьо,

1
что если anova (mod1, mod2, test = "LRT"), какая разница?
ElleryL
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.