Вступление: отметив внимание, которое получил сегодня этот вопрос: « Может ли ANOVA быть значимым, если ни один из парных t-тестов не является? », Я подумал, что смогу перефразировать его интересным способом, который заслуживает своего собственного набора ответов. ,
Различные несоответствующие результаты (по номинальной стоимости) могут иметь место, когда статистическая значимость понимается как простая дихотомия и оценивается только на основе того, что выше, или . Ответ @ Glen_b на вышеуказанный вопрос представляет собой полезный пример случая, когда:
- тест ANOVA дает для одной независимой переменной (IV) с четырьмя уровнями, но
- для всех тестов сдвумявыборками, которые сравнивают различия в одной и той же зависимой переменной (DV) среди наблюдений, соответствующих каждой паре четырех уровней IV.
Похожий случай возник, несмотря на поправки Бонферрони для специальных парных сравнений с помощью этого вопроса: повторные измерения Ановы значимы, но все множественные сравнения с поправкой Бонферрони не являются? Ранее упоминавшиеся случаи с несколько иным тестом множественной регрессии также существуют:
- Почему можно получить значительную статистику F (p <.001), но не значимые t-тесты регрессора? :
- Как регрессия может быть значимой, но все предикторы могут быть несущественными?
- В @ whuber - х ответ ,
Держу пари , что в подобных случаях, некоторые (но не все) попарные сравнения (или коэффициентов регрессии критерии значимости) значения должны быть достаточно близки к , если соответствующий Омнибус тест может достичь . Я вижу, что это имеет место в первом примере @ Glen_b, где , , а наибольшая попарная разница дает наименьшее . Должно ли это быть в общем случае? Более конкретно :
Вопрос: Если ANOVA тест производит для одного политомного эффекта IV на непрерывном DV, как высоко может быть самое низкое значение среди всех тестов двух выборок, которые сравнивают каждую пару уровней IV? Может ли минимальное попарное значение быть таким высоким, как ?
Я приветствую ответы, которые касаются только этого конкретного вопроса . Однако, чтобы еще больше мотивировать этот вопрос, я разработаю и добавлю некоторые потенциально риторические вопросы. Не стесняйтесь решать и эти проблемы, и даже игнорировать конкретный вопрос, если хотите, особенно если на конкретный вопрос получен окончательный ответ.
Значимость: подумайте, насколько менее важной будет разница между a и a p t = .06 , если бы статистическая значимость оценивалась непрерывно с точки зрения силы доказательств против нулевой гипотезы (я думаю, что подход Рона Фишера? ), а не в дихотомических терминах, как выше или ниже порогового значения α = 0,05 для приемлемой вероятности ошибки при выборе, следует ли отклонять нулевую оптовую продажу. « р- хакинг » - известная проблема, которая отчасти обязана своей известностью излишней уязвимости, представленной интерпретацией рзначения в соответствии с обычной практикой дихотомизации значимости в эквивалентах «достаточно хорошо» и «недостаточно хорошо». Если бы кто-то выбрал эту практику и сосредоточился вместо этого на интерпретации значений как силы доказательств против нуля на непрерывном интервале, может ли комплексное тестирование быть несколько менее важным, если действительно заботятся о множественных парных сравнениях? Не обязательно бесполезно, поскольку любое разумно эффективное улучшение статистической точности, конечно, желательно, но ... если, например, наименьшее значение p для парного сравнения обязательно находится в пределах .10 от ANOVA (или другого сводного теста) pзначение, разве это не делает омнибусный тест несколько более тривиальным, менее обязательным и даже более вводящим в заблуждение (в сочетании с существовавшим ранее недоразумением), особенно если не требуется особо контролировать в нескольких тестах?
И наоборот, если данные могут существовать таким образом, что омнибус , но все попарно p > .50 , разве это не должно мотивировать омнибус и контрастное тестирование на протяжении всей практики и педагогики? Мне кажется, что эта проблема должна также проинформировать об относительных достоинствах оценки статистической значимости в соответствии с дихотомией по сравнению с континуумом, поскольку дихотомическая интерпретирующая система должна быть более чувствительной к небольшим корректировкам, когда различия «незначительно значимы», тогда как ни одна из этих систем является безопасным с невыполнения теста омнибуса или настроить для множественных сравнений , если эта разница / регулировка может быть очень большой (например, р т - р F > в теории.
Другие дополнительные сложности, которые следует учитывать или игнорировать - все, что делает ответ более простым и более полезным :
- Как высоко S для т s может быть , если, F , р < 0,05 вместо (например, р = 0,01 , 0,001 , ... )
- Чувствительность к числу уровней в политоме IV
- Чувствительность к неравномерности в значении парных различий (при всех )
- Ответ Уубера указывает на то, что включение небольших различий может маскировать большие различия.
- Различия между исправлениями различных омнибус-тестов для множественных сравнений
- Смотрите также: Исправление для множественных сравнений в пределах предметов / повторных измерений ANOVA; чрезмерно консервативный?
- С многократными IV, кажется, мультиколлинеарность может усугубить эту проблему .
- Ограниченные случаи, когда данные оптимально соответствуют всем предположениям классических параметрических тестов
- Это ограничение может быть важно, чтобы этот вопрос не был спорным.