Порядок переменных в ANOVA имеет значение, не так ли?

Правильно ли я понимаю, что порядок, в котором переменные указываются в многофакторном ANOVA, имеет значение, но что порядок не имеет значения при выполнении множественной линейной регрессии?

Таким образом, предполагая такой результат, как измеренная кровопотеря y и две категориальные переменные

метод аденоидэктомии a ,
метод тонзиллэктомии b .

Модель y~a+bотличается от модели y~b+a(или, как мне кажется, моя реализация в R).

Правильно ли я понимаю, что термин здесь заключается в том, что ANOVA - это иерархическая модель, поскольку она сначала приписывает как можно большую дисперсию первому фактору, прежде чем пытаться приписать остаточную дисперсию второму фактору?

В приведенном выше примере иерархия имеет смысл, потому что я всегда делаю аденоидэктомию, прежде чем делать тонзиллэктомию, но что произойдет, если у одного будет две переменные без присущего порядка?

— Фаррел
источник

Порядок имеет значение в ANOVA с несбалансированным дизайном, т. Е. При неравных размерах ячеек. Эта тема часто рассматривается под заголовком «типы сумм квадратов». См. Epm.sagepub.com/content/38/3/621.full.pdf+html и ответ chl на stats.stackexchange.com/questions/11209/…

— каракал

Смотрите также ответ gung в stats.stackexchange.com/questions/20452 .

— говорит амеба, восстанови Монику

Я только что продлил свое старое обсуждение, надеясь, что оно прольет новый свет на этот вопрос. Это, безусловно, все еще нуждается в работе, и, возможно, у кого-то есть нервы, чтобы помочь редактировать его. Вот что у меня есть: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm Возможно, здесь есть что-то интересное, что может быть использовано для какого-то точного ответа на этот вопрос.

— Готфрид Хелмс

Ответы:

Этот вопрос, очевидно, возник из исследования с несбалансированным двусторонним дизайном, проанализированного в R с помощью aov()функции; На этой странице представлен более свежий и подробный пример этой проблемы.

Общий ответ на этот вопрос, как и для многих, звучит так: «Это зависит». Здесь это зависит от того, сбалансирован ли дизайн и, если нет, какой вкус ANOVA выбран.

Во-первых, это зависит от того, сбалансирован ли дизайн. В лучшем из всех возможных миров, с равным числом случаев во всех ячейках факториального плана, не будет различий из-за порядка ввода факторов в модель, независимо от того, как выполняется ANOVA. * Рассматриваемые случаи очевидно из ретроспективной клинической когорты, кажется, из реального мира, где такой баланс не был найден. Так что порядок может иметь значение.

Во-вторых, это зависит от того, как выполняется ANOVA, что является несколько спорным вопросом. Типы ANOVA для несбалансированных конструкций различаются по порядку оценки основных эффектов и взаимодействий. Оценка взаимодействий имеет основополагающее значение для двухстороннего и более высокого порядка ANOVA, поэтому существуют споры о том, как лучше поступить. См. Эту перекрестную валидированную страницу для одного объяснения и обсуждения. См. Подробности и предупреждение для функции Anova()(с заглавной буквой «А») в руководстве для carпакета для другого представления.

Порядок факторов имеет значение в несбалансированных проектах по умолчанию aov()в R, который использует так называемые тесты типа I. Это последовательные различия в факторах в порядке поступления в модель, как и предполагалось в настоящем вопросе. Порядок не имеет значения для тестов типа II или типа III, предоставляемых Anova()функцией из carпакета в R. Однако эти альтернативы имеют свои потенциальные недостатки, отмеченные в приведенных выше ссылках.

Наконец, рассмотрим отношение к множественной линейной регрессии, как lm()в R, которая по сути является моделью того же типа, если вы включите условия взаимодействия. Порядок ввода переменных в lm()не имеет значения с точки зрения коэффициентов регрессии и p- значений, о которых сообщается summary(lm()), в которых категориальный коэффициент k-уровня кодируется как (k-1) двоичных фиктивных переменных, а коэффициент регрессии сообщается для каждого фиктивного ,

Однако можно обернуть lm()вывод anova()(строчными буквами «a» из statsпакета R ) или Anova()суммировать влияние каждого фактора на все его уровни, как и ожидается в классическом ANOVA. Тогда порядок факторов будет иметь значение anova()как для aov(), так и не будет иметь значения для Anova(). Точно так же споры по поводу того, какой тип ANOVA использовать будут возвращаться. Поэтому небезопасно предполагать независимость порядка ввода факторов при всех последующих применениях lm()моделей.

* Наличие одинакового количества наблюдений во всех ячейках достаточно, но, насколько я понимаю, необязательно, чтобы порядок факторов не имел значения. Менее требовательные типы баланса могут обеспечить независимость от порядка.

— магистр педагогических наук
источник

Да, эти данные наблюдений были несбалансированными, очень несбалансированными.

— Фаррел

Надеемся, что этот комментарий все еще получает ответ здесь: Вы говорите, что при сбалансированном дизайне исследования оценка СС никогда не будет зависеть от порядка, независимо от выбранного типа теста на анову (тип I, II, III). Я не уверен, что понимаю это. с помощью функции 'anova' в R (которая использует тесты типа I) на линейной модели, основанной на данных, которые сбалансированы, конечно, порядок элементов имеет значение, нет?

— PejoPhylo

@PejoPhylo, когда данные сбалансированы, вы можете получить то, что называется ортогональным дизайном. В ортогональном дизайне существует один уникальный способ распределения сумм квадратов между обработками и их взаимодействиями, поэтому порядок ввода обработок не будет иметь значения в отношении оценок эффектов и их p-значений. Эта страница содержит математическое объяснение. Это не сразу очевидно; Вопрос, который я только что связал, был задан одним из участников этого сайта с одной из самых высоких репутаций. Несбалансированные данные могут разрушить ортогональность.

— EdM

Большое спасибо за ваш ответ @EdM

— PejoPhylo

Термин иерархическая модель относится к структуре между факторами. Например, многоцентровое исследование является иерархическим: пациенты размещаются в больницах, которые их лечат. Каждая больница лечит пациентов с плацебо и verum, но получение каждого из них в больнице A или B немного отличается из-за некоторого общего эффекта от управления больницей для всех их пациентов (может даже быть эффект взаимодействия с экспериментальным агентом). Так называется иерархический эффект.

Теперь ваши методы эктомии могут быть иерархическими: возможно ли, что определенный метод тонзиллэктомии немного отличается (сам по себе, еще не в эффекте, потому что это то, что вы собираетесь оценивать и тестировать) в зависимости от метода аденоидэктомии, использованного ранее для того же самого терпеливый? Если да, вы должны указать это в вашей модели.

Ваше наблюдение, что y ~ a + b может отличаться от y ~ b + a, указывает на то, что что-то не так. Аддитивные эффекты коммутируют, поэтому не должно быть разницы (кроме небольших числовых различий). Ни правдоподобно, ни желательно, чтобы эффект от хирургических методов мог зависеть от порядка, в котором статистик позже определяет эти эффекты. Таким образом, вы, вероятно, выбрали неправильный подход к подаче Rданных.

— Хорст Грюнбуш
источник

Я не уверен, что следую последнему абзацу. В несбалансированном факториальном ANOVA p-значения для каждого фактора, вычисленные с помощью суммы квадратов типа I (последовательной), будут определенно зависеть от порядка факторов. Я считаю, что это весь вопрос.

— говорит амеба, восстанови Монику

Я не уверен, что @Farrel получил Тип I SS. Я помню, как однажды наблюдал, как SAS выводит разные SS типа III из-за некоторой несопоставимой сортировки в наборе данных и в заявлении модели. Может быть, это может произойти и с R тоже?

— Хорст Грюнбуш

Я не могу знать наверняка, и он, возможно, не помнит себя, учитывая, что вопрос был задан пять лет назад. Но я думаю, что это , безусловно, самая экономная интерпретация его слов «модель y ~ a + b отличается от модели y ~ b + a (или, как мне кажется, моя реализация в R) указывает на это», в частности, учитывая тот факт, эта aovкоманда в R по умолчанию использует SS типа I. Когда я предложил вознаграждение, я ожидал получить ответ, объясняющий проблемы, связанные с несбалансированным дизайном ановы, различия между SS типа I / II / III и некоторые комментарии о том, имеет ли линейная регрессия те же проблемы или нет.

— говорит амеба, восстанови Монику

Нет. Матрица дизайна в anova единственная, даже если она сбалансирована, когда нет разницы между SS I / II / III. SS I / II / III отличаются только в несбалансированном случае, потому что факторы становятся неортогональными (в отличие от сбалансированного случая). В моем понимании это соответствует линейной регрессии с коррелированными предикторами, что является очень распространенной ситуацией. Мой ответ заключается в том, что та же проблема возникает и в регрессии, просто это стандартно для вычисления p-значения одного предиктора после учета влияния всех других предикторов; это соответствует типу III SS в anova.

— говорит амеба, восстанови Монику

Такие вопросы о переменном порядке в ANOVA продолжают поступать, как этот, перенесенный вчера из Stack Overflow. Я думаю, можно с уверенностью предположить, что этот 5-летний вопрос был аналогичным образом основан на, aovа не было lm, и было бы полезно получить ответ на этот вопрос того типа, который @amoeba указал в комментарии от 12 мая 14:31 ,

— EdM