Может ли ANOVA быть значимым, если ни один из парных t-тестов не является?


29

Возможно ли для одностороннего (с группами или «уровнями») ANOVA сообщить о существенной разнице, когда ни один из парных t-тестов не делает?N ( N - 1 ) / 2N>2N(N1)/2

В этом ответе @whuber писал:

Хорошо известно, что глобальный тест ANOVA F может обнаружить разницу средних значений даже в тех случаях, когда ни один из индивидуальных [нескорректированных парных] t-тестов ни одной из пар средних не даст значительного результата.

так видимо это возможно, но я не понимаю как. Когда это произойдет и какова будет интуиция в таком случае? Может быть, кто-нибудь может привести простой игрушечный пример такой ситуации?

Некоторые дальнейшие замечания:

  1. Совершенно очевидно обратное: общий ANOVA может быть несущественным, в то время как некоторые из парных t-тестов ошибочно сообщают о значительных различиях (т. Е. Это были бы ложноположительные результаты).

  2. Мой вопрос о стандартных, не скорректированных для множественных сравнений t-тестах. Если используются скорректированные тесты (например, процедура HSD Тьюки), то возможно, что ни один из них не окажется значимым, даже если общий ANOVA таков. Это описано здесь в нескольких вопросах, например, Как я могу получить значительный общий ANOVA, но без существенных парных различий с процедурой Тьюки? и Значительное взаимодействие ANOVA, но несущественные парные сравнения .

  3. Обновить. Мой вопрос первоначально касался обычных парных t-тестов с двумя образцами . Однако, как отметил @whuber в комментариях, в контексте ANOVA t-тесты обычно понимаются как постконфликтные контрасты с использованием оценки ANOVA дисперсии внутри группы, объединенной по всем группам (чего не происходит в двух образец t-теста). Таким образом, на самом деле есть две разные версии моего вопроса, и ответ на оба из них оказывается положительным. Увидеть ниже.


3
Ваш вопрос освещен во многих темах: попробуйте поискать на нашем сайте значительную регрессию . (ANOVA является приложением регрессии наименьших квадратов.) Например, stats.stackexchange.com/questions/14500/… предоставляет явный пример и некоторую интуицию. Пожалуйста, изучите их и, если возможно, отредактируйте свой вопрос, чтобы отличить его от предыдущих тем.
whuber

Спасибо, я раньше такого не видел. Однако мне очень трудно перевести эти объяснения множественной регрессии на язык сравнений ANOVA. Это, конечно, моя собственная проблема, но я бы предположил, что я не одинок, поэтому, возможно, ответ на мой вопрос все равно будет полезен для сообщества. Вот мое замешательство: кто-то привел пример регрессии веса к левому / правому размеру обуви (два сильно коррелированных IV) => F означает, что нет. Отлично. Теперь в регрессии ANOVA с 3 группами есть 2 фиктивных IV; они пустышки => всегда идеально антикоррелированы ... и что с того?
говорит амеба, восстанови Монику

Боюсь, я не последую этому последнему замечанию. Во-первых, проблема не обязательно связана с сильной корреляцией в матрице проекта. Во-вторых, макеты не являются «совершенно антикоррелированными»: если бы они были, программное обеспечение в любом случае должно было бы отбросить один из них. Возможно, вы имеете в виду более тонкие проблемы в более сложных моделях ANOVA .
whuber

@amoeba: ваши фиктивные переменные имеют отрицательную корреляцию.
Майкл М,

3
Я возражаю против вашего "дальнейшего замечания" нет. 1. То, что у вас есть очень значимые парные сравнения и незначительное F, не означает, что эти значимые результаты являются ложноположительными. Чтобы знать наверняка, что что-то является ложным положительным результатом, вы должны знать, что нет никакой разницы в фактических средствах, мю. Статистика F не является священной. На самом деле, это даже не обязательно. Это наиболее полезно для выбора модели, но помимо этого вряд ли информативно о том, что конкретно происходит в ваших данных.
Rvl

Ответы:


18

Примечание. Что-то не так с моим исходным примером. Я тупо пойман молчаливым аргументом R об утилизации. Мой новый пример очень похож на мой старый. Надеюсь, сейчас все в порядке.

Вот пример, который я сделал, в котором ANOVA значим на уровне 5%, но ни одно из 6 парных сравнений не является значимым, даже на уровне 5% .

Вот данные:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

введите описание изображения здесь

Вот анова:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

Вот два примера p-значений t-критерия (предположение о равной дисперсии):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

Если немного больше поработать с групповыми средними значениями или отдельными точками, различие в значимости может быть сделано более поразительным (в том смысле, что я могу сделать первое значение p меньшим, а наименьшее из набора из шести значений p для t-критерия выше). ).

-

Изменить: Вот еще один пример, который изначально был создан с шумом о тренде, который показывает, насколько лучше вы можете сделать, если немного двигать точки:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

F имеет значение p ниже 3%, и ни один из t не имеет значения p ниже 8%. (Для примера с 3 группами - но с несколько большим значением p на F - опустите вторую группу)

И вот действительно простой, хотя и более искусственный пример с 3 группами:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(В этом случае наибольшая дисперсия наблюдается в средней группе - но из-за большего размера выборки стандартная ошибка среднего по группе еще меньше)


Множественные сравнения t-тестов

Уабер предложил мне рассмотреть случай множественных сравнений. Это оказывается довольно интересно.

Случай для множественных сравнений (все проводятся на исходном уровне значимости - т.е. без корректировки альфа для множественных сравнений) несколько сложнее реализовать, так как игра с большими и меньшими дисперсиями или большим и меньшим количеством df в разных группах не помогает так же, как они делают с обычными t-тестами с двумя образцами.

Тем не менее, у нас все еще есть инструменты управления количеством групп и уровнем значимости; если мы выберем больше групп и меньшие уровни значимости, то снова будет относительно просто идентифицировать случаи. Вот один из них:

Возьмите восемь групп с . Определите значения в первых четырех группах (2,2,5), а в последних четырех группах (3,5,4) и примите (скажем). Тогда мы имеем значительный F:α = 0,0025ni=2α=0.0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

Тем не менее, наименьшее значение p в парных сравнениях не является значимым для этого уровня:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
T-критерий с двумя выборками - это не то же самое, что парный критерий регрессии. Различие заключается в оценках остаточной дисперсии. Таким образом, ваши примеры на самом деле не являются примерами более сильного парадокса, заключающегося в том, что в одном и том же регрессионном анализе F-тест может быть значимым, хотя ни одно из его парных сравнений не является значимым. Я полагаю, что этот парадокс также не обязательно возникает из гетероскедастичности: он может появляться, даже когда все групповые дисперсии равны.
whuber

4
Более интересно еще может быть адрес , когда это возможно для F-тест , чтобы отклонить нуль , но ни один из попарно т-тестов, чтобы отклонить его на тот же уровень значимости (используя ту же оценку дисперсии ошибки , как F-тест). Например, для 3 групп с одинаковыми размерами выборки объединение области отклонения 5% для парных t-тестов содержит область отклонения 5% для F-теста ANOVAR, даже если размер образца становится очень большим.
Scortchi - Восстановить Монику

4
0.005F

4
Амеба, путаница возникает из-за того, что «парные t-тесты» могут означать две вещи. В контексте ANOVA, как правило, следует понимать, что это означает специальные контрасты с использованием оценок ANOVA. Как отмечали другие, это не то же самое, что проведение обычного t-теста для пар групп, потому что версия ANOVA основана на оценке дисперсии внутри группы, полученной из всех групп.
whuber

2
Я думаю, что вы сделали хорошее резюме. Я назвал парадокс «более сильным» в том смысле, что когда все тесты проводятся в рамках одного анализа ANOVA, можно (наивно) ожидать, что они будут внутренне согласованными. (Когда вы проводите два набора тестов, которые по своей сути не связаны, не должно вызывать удивления то, что они дают противоречивые результаты: это часто случается.) Мы должны признать, что логически непротиворечиво и статистически обоснованно заключить эту группу Значения значительно различаются, но не находят различий между какими-либо конкретными парами групп
whuber

4

Резюме: я считаю, что это возможно, но очень, очень маловероятно. Разница будет небольшой, и если это произойдет, то это потому, что допущение было нарушено (например, гомоскедастичность дисперсии).

Вот некоторый код, который ищет такую ​​возможность. Обратите внимание, что при каждом запуске он увеличивает начальное значение на 1, поэтому начальное число сохраняется (и поиск в начальных значениях является систематическим).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

В поисках значимого R2 и никаких незначительных t-тестов я ничего не нашел до семнадцати тысяч. В поисках более низкого значения p в R2, чем в t-тестах, я получаю результат при seed = 323, но разница очень и очень мала. Возможно, что настройка параметров (увеличение количества групп?) Может помочь. Причина, по которой значение p может быть меньше, состоит в том, что при вычислении стандартной ошибки для параметров в регрессии все группы объединяются, поэтому стандартная ошибка разности потенциально меньше, чем в t-критерии.

Я задавался вопросом, может ли помочь нарушение гетероскедастичности (как бы). Оно делает. Если я использую

y <- (rnorm(600) + x * 0.01) * x * 5

Чтобы сгенерировать y, я нахожу подходящий результат при seed = 1889, где минимальное значение p из t-тестов равно 0,061, а значение p, связанное с R-квадратом, равно 0,046.

Если я изменю размеры группы (что увеличивает эффект нарушения гетероскедастичности), заменив x выборку на:

x <- sample(c(0:5), 100, replace=TRUE)

Я получаю значительный результат при seed = 531, с минимальным p-значением t-критерия 0,063 и p-значением для R2 0,046.

Если я перестану исправлять гетероскедастичность в t-тесте, используя:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

Мой вывод заключается в том, что это вряд ли произойдет, и разница, вероятно, будет очень небольшой, если вы не нарушили предположение о гомоскедастичности в регрессии. Попробуйте провести анализ с помощью надежного / сэндвича / как хотите, чтобы это называлось коррекцией.


Похоже, у вас есть незаконченное предложение, начинающееся с «Если я перестану исправлять гетероскедастичность в t-тесте». Кроме того, большое спасибо! Пожалуйста, смотрите мое обновление на вопрос. Также обратите внимание на первый комментарий @ whuber здесь; если я правильно понимаю, он настаивает на том, что такая ситуация может легко (?) произойти (и называет ее "хорошо известной"). Может быть, здесь есть какое-то недопонимание, но что это?
говорит амеба, восстанови Монику

Я думаю, что @whuber говорит о несущественных параметрах в модели, а не несущественных t-тестах.
Джереми Майлз

Нет, он не. Если это хорошо известно, я этого не знаю, и я пытался привести пример, но не могу.
Джереми Майлз

1
Я рад, что @Glen_b привел простой пример. Интуиция заключается в том, что общий тест оценивает, есть ли доказательства того, что разброс в средних значениях группы не может быть разумно объяснен одной только остаточной дисперсией. Парные тесты, вовлекающие только два средства одновременно, должны быть значительно более консервативными в оценке того же самого доказательства. Поэтому даже сравнение двух крайних групповых средств может не выявить существенной разницы, когда общее распределение всех средств является значительным. Это иногда происходит на практике, особенно с большим количеством групп.
whuber

3
Кстати, причина, по которой я назвал это «хорошо известным», проистекает из моих воспоминаний о том, что меня предупредили об этом в руководстве по программному обеспечению Systat c. 1989. Это было очень поучительное руководство (большая часть написано лично Леландом Вилкинсоном , разработчиком) и, вероятно, до сих пор написано . Руководство находится в сети, но вы должны зарегистрироваться на сайте Systat, чтобы иметь возможность его скачать.
whuber

2

Это вполне возможно:

  • Один или несколько парных t-тестов являются значимыми, но общий F-тест не
  • Общий F-тест является значимым, но ни один из парных t-тестов не является

Общий тест F тестирует все контрасты одновременно . Как таковой, он должен быть менее чувствительным (с меньшей статистической мощностью) к отдельным контрастам (например, парный тест). Эти два теста тесно связаны друг с другом, но они не сообщают совершенно одно и то же.

Как вы можете видеть, рекомендация из учебника не проводить запланированные сравнения, если общий F-тест не является значимым, не всегда верна. На самом деле, рекомендация может помешать нам найти существенные различия, потому что общий F-тест имеет меньшую мощность, чем запланированные сравнения для тестирования конкретных различий.


Я не уверен, что следую логике вашего ответа. Вы говорите, что отклонение H0 с помощью F-теста подразумевает наличие хотя бы одного ненулевого контраста, но этот контраст может не соответствовать ни одному из парных сравнений? Если это так, означает ли это, что если F-тест отклоняет H0, то хотя бы один из парных тестов по всем возможным контрастам также приведет к отклонению?
говорит амеба, восстанови Монику

@amoeba Я отредактировал свой ответ.
SmallChess
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.