Впервые я столкнулся с ANOVA, когда я был студентом магистратуры в Оксфорде в 1978 году. Современные подходы, объединяя непрерывные и категориальные переменные в модели множественной регрессии, затрудняют для молодых статистиков понимание того, что происходит. Так что может быть полезно вернуться к более простым временам.
В своей первоначальной форме ANOVA представляет собой упражнение по арифметике, в соответствии с которым вы разбиваете общую сумму квадратов на части, связанные с обработками, блоками, взаимодействиями, чем угодно. В сбалансированном режиме суммы квадратов с интуитивным значением (например, SSB и SST) складываются в скорректированную общую сумму квадратов. Все это работает благодаря теореме Кохрана . Используя Cochran, вы можете рассчитать ожидаемые значения этих терминов в соответствии с обычными нулевыми гипотезами, и F-статистика оттуда вытекает.
В качестве бонуса, как только вы начнете думать о Кокране и суммах квадратов, имеет смысл продолжить нарезать и нарезать кубиками суммы ваших лечений, используя ортогональные контрасты. Каждая запись в таблице ANOVA должна иметь интерпретацию, представляющую интерес для статистики, и давать проверяемую гипотезу.
Я недавно написал ответ, где возникла разница между методами MOM и ML. Вопрос включал оценку моделей случайных эффектов. На этом этапе традиционный подход ANOVA полностью разделяет компанию с максимальной оценкой правдоподобия, и оценки эффектов уже не совпадают. Когда дизайн неуравновешен, вы также не получите ту же F статистику.
σ2пσ2σ2+ n σ2пNσ2б^, ANOVA дает метод оценки моментов для случайной дисперсии эффекта. Теперь мы склонны решать такие проблемы с помощью моделей со смешанными эффектами, а компоненты дисперсии получают с помощью оценки максимального правдоподобия или REML.
ANOVA как таковой не является методом обработки моментов. Он включает разделение суммы квадратов (или, в более общем смысле, квадратичной формы ответа) на компоненты, которые дают значимые гипотезы. Это сильно зависит от нормальности, так как мы хотим, чтобы суммы квадратов имели распределения хи-квадрат для F-тестов.
Структура максимального правдоподобия носит более общий характер и применяется к ситуациям, таким как обобщенные линейные модели, где суммы квадратов не применяются. Некоторое программное обеспечение (например, R) вызывает путаницу, указывая методы anova к тестам отношения правдоподобия с асимптотическим распределением хи-квадрат. Можно оправдать использование термина «анова», но, строго говоря, теория, стоящая за ним, иная.