Нужны ли нам глобальные тесты перед специальными тестами?

Я часто слышу, что специальные тесты после ANOVA можно использовать только в том случае, если сам ANOVA был значительным.

Тем не менее, после специальных испытаний корректируют чтобы поддерживать общий уровень ошибок типа I на уровне 5%, не так ли? $p$
Итак, зачем нам сначала нужен глобальный тест?
Если нам не нужен глобальный тест, правильна ли терминология "post hoc"?
Или существует несколько видов специальных тестов, некоторые из которых предполагают значительный глобальный результат тестирования, а другие - без этого предположения?

anova statistical-significance post-hoc

— четный
источник

Ответы:

Поскольку множественные сравнительные тесты часто называют «пост-тестами», можно подумать, что они логически следуют одностороннему ANOVA. На самом деле это не так.

« К сожалению, обычной практикой является проведение множественных сравнений только тогда, когда гипотеза об однородности корпуса отвергается » ( Hsu, стр. 177 ).

Будут ли результаты пост-тестов действительными, если общее значение P для ANOVA будет больше 0,05?

Удивительно, но ответ - да. За одним исключением, пост-тесты действительны, даже если общий ANOVA не обнаружил существенных различий между средствами.

Исключением является первый критерий множественного сравнения, защищенный критерий наименьшей разности Фишера (LSD). Первым этапом защищенного теста LSD является проверка, отклоняет ли общая ANOVA нулевую гипотезу идентичных средних. Если это не так, не следует проводить индивидуальные сравнения. Но этот защищенный тест LSD устарел и больше не рекомендуется.

Можно ли получить «значимый» результат теста множественных сравнений, даже если общий ANOVA не был значимым?

Да, это возможно. Исключением является тест Шеффе. Он переплетается с общим F-тестом. Если общий ANOVA имеет значение P больше 0,05, то тест Шеффе не обнаружит каких-либо значительных пост-тестов. В этом случае выполнение пост-тестов после незначительного ANOVA является пустой тратой времени, но не приведет к неверным выводам. Но другие множественные сравнительные тесты могут выявить существенные различия (иногда), даже если общий ANOVA не показал значительных различий между группами.

Как я могу понять очевидное противоречие между высказыванием ANOVA, в котором фактически говорится, что все групповые средства идентичны, и различием после теста?

Общий односторонний анализ ANOVA проверяет нулевую гипотезу о том, что все группы лечения имеют одинаковые средние значения, поэтому любое различие, которое вы наблюдали, связано со случайной выборкой. Каждый пост-тест проверяет нулевую гипотезу о том, что две конкретные группы имеют идентичные средства.

Пост-тесты более сфокусированы, поэтому имеют возможность находить различия между группами, даже если общий ANOVA сообщает, что различия между средними значениями не являются статистически значимыми.

Насколько полезны результаты общего ANOVA?

ANOVA проверяет общую нулевую гипотезу о том, что все данные поступают из групп, которые имеют идентичные средства. Если это ваш экспериментальный вопрос - предоставляют ли данные убедительные доказательства того, что средства не все идентичны - тогда ANOVA - это именно то, что вам нужно. Чаще ваши экспериментальные вопросы более сфокусированы и отвечают несколькими тестами сравнения (пост-тесты). В этих случаях вы можете спокойно игнорировать общие результаты ANOVA и переходить сразу к результатам после тестирования.

Обратите внимание, что все вычисления для множественного сравнения используют среднеквадратичный результат из таблицы ANOVA. Таким образом, даже если вас не волнует значение F или значение P, пост-тесты все равно требуют, чтобы таблица ANOVA была вычислена.

— Харви Мотульский
источник

Это отличный ответ Харви - спасибо, что написали это!

— pmgjones

(+1) Последние два абзаца обеспечивают хороший контекст для понимания и оценки всего ответа.

— whuber

Отличный ответ, и я добавлю несколько цитат из Maxwell and Delaney (2004): «... эти методы [например, Bonferroni, Tukey, Dunnet и т. Д.] Следует рассматривать как замену омнибус-теста, потому что они контролируют alphaEW у вас желаемый уровень сам по себе. Требование значительного сводного теста перед выполнением любого из этих анализов, как это иногда делается, служит только для понижения alphaEW ниже желаемого уровня (Bernhardson, 1975) и, следовательно, ненадлежащим образом снижает мощность "(стр. 236) ,

— dfife

Мне нравится "так что у вас есть сила, чтобы найти различия между группами ..."

— SmallChess

Хотя это и не вопрос, я думаю, что я должен упомянуть - поскольку это может быть неочевидным - что обратная ситуация также возможна в некоторых ситуациях (что тест на омнибус отвергается, но нет парных сравнений)

— Glen_b

(1) постфактум испытания может или не может достичь номинальной глобальной частоты ошибок типа I, в зависимости от (а) ли аналитик приспосабливается для числа тестов и (б) в какую степень ретроспективных тестов являются независимыми друг от еще один. Применение глобального теста первый довольно надежная защита от риска (даже неумышленно) выявлений паразитных «значительных» результатов после специальных данных Snooping.

(2) Существует проблема власти. Хорошо известно, что глобальный тест ANOVA F может обнаружить разницу средних значений даже в тех случаях, когда ни один из индивидуальных t-тестов любой из пар средних не даст значительного результата. Другими словами, в некоторых случаях данные могут показать, что истинные средние значения, вероятно, различаются, но не могут с достаточной уверенностью определить, какие пары средних различаются.

— Whuber
источник

Re (2): когда вы говорите, что односторонний ANOVA может сообщить о существенной разнице, когда ни один из парных t-тестов не делает, вы ссылаетесь на простой не скорректированный («не пост», например, не процедура Тьюки или что-то еще) т-тесты? Я думал, что это никогда не будет возможно, я был неправ?

— говорит амеба: восстанови Монику

@amoeba Это верно; Я имею в виду нескорректированные парные тесты. Спасибо за разъяснение этого момента.

— whuber

Спасибо, @whuber. Я попытался найти обсуждение этого вопроса здесь, на CrossValidated, но безрезультатно. Поэтому я опубликовал свой собственный вопрос о том, как такая ситуация возможна: stats.stackexchange.com/questions/83030/… . Я был бы очень благодарен, если бы вы могли уточнить там!

— говорит амеба, восстанови Монику

@amoba и @whuber: Вы, наверное, знаете это, но я все равно хотел бы уточнить. Обратите внимание, что тест ANOVA может быть значимым, даже если ни один из тестов Тьюки HSD не является. Простой пример R со сбалансированным набором данных с тремя группами:

set.seed(249);  group = rep(1:3, each=2); y = group + rnorm(6); mod = aov(y~factor(group)); summary(mod); TukeyHSD(mod); plot(y~group)

— Карл Ове Хуфтхаммер

Ну, разве вы не могли бы по крайней мере предположить, что между этими двумя средствами была наибольшая разница с наибольшей разницей между ними, поскольку нулевая гипотеза ANOVA заключается в том, что по крайней мере одна пара средств отличается друг от друга?

— Speldosa