Вероятно, очень простой вопрос о многофакторной ANOVA. Предположим, что существует двусторонняя схема, в которой мы тестируем как основные эффекты A, B, так и взаимодействие A: B. При тестировании основного эффекта для A с SS типа I эффект SS рассчитывается как разность , где R S S ( 1 ) - сумма квадратов остаточной ошибки для модель только с пересечением, и R S S ( A ) RSS для модели с добавленным фактором А. Мой вопрос касается выбора на срок ошибки:
Как вы можете обосновать, что термин ошибки для этого теста обычно рассчитывается из RSS полной модели A + B + A: B, которая включает как основные эффекты, так и взаимодействие?
... в отличие от взятия условия ошибки из неограниченной модели из фактического сравнения (RSS из основного эффекта A в приведенном выше случае):
Это имеет значение, так как член ошибки из полной модели, вероятно, часто (не всегда) меньше, чем член ошибки из неограниченной модели в сравнении. Кажется, что выбор для термина ошибки является несколько произвольным, создавая пространство для желаемых изменений p-значения, просто добавляя / удаляя факторы, которые на самом деле не представляют интереса, но изменяют термин ошибки в любом случае.
В следующем примере значение F для A значительно изменяется в зависимости от выбора полной модели, даже если фактическое сравнение для эффекта SS остается неизменным.
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
Тот же вопрос относится к SS типа II и в целом к общей линейной гипотезе, т. Е. К сравнению модели с ограниченной и неограниченной моделью в рамках полной модели. (Для SS типа III неограниченная модель всегда является полной моделью, поэтому здесь не возникает вопроса)
IV1
(1-й пример), то два выражения для знаменателя идентичны. Однако, когда полная модель содержит дополнительные эффекты, знаменатель для тестирования изменяется, хотя сравнение модели (по сравнению с SS типа 1) не изменяется . В 3 примерах среднеквадратичное значение для A не изменяется (аналогичное сравнение модели во всех случаях), но среднеквадратичная ошибка изменяется. Меня интересует, что оправдывает изменение ошибки, когда фактическое сравнение остается прежним. ~ 1
~ IV1 + 1
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))