Этот вопрос, очевидно, возник из исследования с несбалансированным двусторонним дизайном, проанализированного в R с помощью aov()
функции; На этой странице представлен более свежий и подробный пример этой проблемы.
Общий ответ на этот вопрос, как и для многих, звучит так: «Это зависит». Здесь это зависит от того, сбалансирован ли дизайн и, если нет, какой вкус ANOVA выбран.
Во-первых, это зависит от того, сбалансирован ли дизайн. В лучшем из всех возможных миров, с равным числом случаев во всех ячейках факториального плана, не будет различий из-за порядка ввода факторов в модель, независимо от того, как выполняется ANOVA. * Рассматриваемые случаи очевидно из ретроспективной клинической когорты, кажется, из реального мира, где такой баланс не был найден. Так что порядок может иметь значение.
Во-вторых, это зависит от того, как выполняется ANOVA, что является несколько спорным вопросом. Типы ANOVA для несбалансированных конструкций различаются по порядку оценки основных эффектов и взаимодействий. Оценка взаимодействий имеет основополагающее значение для двухстороннего и более высокого порядка ANOVA, поэтому существуют споры о том, как лучше поступить. См. Эту перекрестную валидированную страницу для одного объяснения и обсуждения. См. Подробности и предупреждение для функции Anova()
(с заглавной буквой «А») в руководстве для car
пакета для другого представления.
Порядок факторов имеет значение в несбалансированных проектах по умолчанию aov()
в R, который использует так называемые тесты типа I. Это последовательные различия в факторах в порядке поступления в модель, как и предполагалось в настоящем вопросе. Порядок не имеет значения для тестов типа II или типа III, предоставляемых Anova()
функцией из car
пакета в R. Однако эти альтернативы имеют свои потенциальные недостатки, отмеченные в приведенных выше ссылках.
Наконец, рассмотрим отношение к множественной линейной регрессии, как lm()
в R, которая по сути является моделью того же типа, если вы включите условия взаимодействия. Порядок ввода переменных в lm()
не имеет значения с точки зрения коэффициентов регрессии и p- значений, о которых сообщается summary(lm())
, в которых категориальный коэффициент k-уровня кодируется как (k-1) двоичных фиктивных переменных, а коэффициент регрессии сообщается для каждого фиктивного ,
Однако можно обернуть lm()
вывод anova()
(строчными буквами «a» из stats
пакета R ) или Anova()
суммировать влияние каждого фактора на все его уровни, как и ожидается в классическом ANOVA. Тогда порядок факторов будет иметь значение anova()
как для aov()
, так и не будет иметь значения для Anova()
. Точно так же споры по поводу того, какой тип ANOVA использовать будут возвращаться. Поэтому небезопасно предполагать независимость порядка ввода факторов при всех последующих применениях lm()
моделей.
* Наличие одинакового количества наблюдений во всех ячейках достаточно, но, насколько я понимаю, необязательно, чтобы порядок факторов не имел значения. Менее требовательные типы баланса могут обеспечить независимость от порядка.