Метод Z-счета Стоуффера: что если мы сложим вместо ?


22

Я выполняю независимых статистических тестов с одинаковой нулевой гипотезой и хотел бы объединить результаты в одно значение. Кажется, что есть два «принятых» метода: метод Фишера и метод Стоуффера .Np

Мой вопрос о методе Стоуффера. Для каждого отдельного теста я получаю z-оценку . Под нулевой гипотезой, каждый из них распределяются со стандартным нормальным распределением, так что сумма следует нормальному распределению с дисперсией . Поэтому метод Стоуффера предлагает вычислить , который должен обычно распределяться с дисперсией единицы, и затем использовать это как объединенную z-оценку.ziΣziNΣzi/N

Это разумно, но вот еще один подход, который я предложил, и который также звучит разумно для меня. Поскольку каждое из происходит из стандартного нормального распределения, сумма квадратов должна из распределения хи-квадрат с степенями свободы. Таким образом, можно вычислить и преобразовать его в значение, используя кумулятивную функцию распределения хи-квадрат с степенями свободы ( , где - CDF).ziS=Σzi2NSpNp=1XN(S)XN

Однако нигде я не могу найти этот подход даже упомянутым. Это когда-либо использовалось? У него есть имя? Каковы будут преимущества / недостатки по сравнению с методом Стоуффера? Или в моих рассуждениях есть недостаток?


Один существенный недостаток, который выскакивает, заключается в том, что метод Стоуффера может обнаруживать систематические сдвиги в , чего обычно можно ожидать, когда одна альтернатива неизменно верна, в то время как метод хи-квадрат, по-видимому, обладает меньшими возможностями для этого. Быстрое моделирование ( , итерации) показывает, что это так; метод хи-квадрат серьезно менее эффективен для обнаружения односторонней альтернативы. N = 100 10 4ziN=100104
whuber

2
Спасибо! Не могли бы вы описать вашу симуляцию более подробно, мне любопытно. С другой стороны, если имеют разные знаки, но большие абсолютные значения, то метод Стоуффера может в конечном итоге получить , тогда как мой метод выдаст ОЧЕНЬ значимое . Я предполагаю, что в некоторых случаях это может иметь гораздо больше смысла (и я подозреваю, что в моем случае это имеет значение, но я не уверен). z 0 рziz0p
амеба говорит восстановить монику

1
Вы правы, поэтому я не разместил свой комментарий в качестве ответа. Но в каких ситуациях альтернативы так радикально отличаются от нуля в обоих направлениях, за исключением одного случая?
whuber

Ситуация, которую я имел в виду, похожа на ситуацию в тесте Хи-квадрат Пирсона, где интересует, отличается ли эмпирическое распределение от нуля; тогда отклонения в любом направлении имеют значение. Но, подумав еще раз, я думаю, ваша интуиция верна, и в моем случае подозрительные отклонения все в одном направлении. Если вы оставите свой комментарий в качестве ответа и предоставите некоторые подробности о вашей быстрой симуляции (мне очень любопытно, почему метод хи-квадрат оказывается менее мощным!), Я буду рад принять его.
амеба говорит восстановить монику

Сумма n Z баллов имеет распределение с дисперсией n? Почему дисперсия не является квадратом стандартной ошибки среднего? Сумма как подразумевается в названии, имеет дисперсию N. Может быть, я упускаю что-то очевидное? Z2
russellpierce

Ответы:


17

Одним из недостатков, который выпадает, является то, что метод Стоуффера может обнаруживать систематические сдвиги в , что обычно можно ожидать, когда одна альтернатива неизменно верна, в то время как метод хи-квадрат, по-видимому, обладает меньшими возможностями для этого. Быстрое моделирование показывает, что это так; метод хи-квадрат менее эффективен для обнаружения односторонней альтернативы. Здесь приведены гистограммы p-значений обоими методами (красный = Стоуффер, синий = хи-квадрат) для независимых итераций с и различными односторонними стандартизированными эффектами диапазоне от none ( ) через SD ( ).10 5 N = 10 μ μ = 0 0,6 μ = 0,6zi105N=10μμ=00.6μ=0.6

фигура

Лучшая процедура будет иметь большую площадь, близкую к нулю. Для всех показанных положительных значений эта процедура является процедурой Стуффера.μ


Код R

Это включает в себя метод Фишера (закомментированный) для сравнения.

n <- 10
n.iter <- 10^5
z <- matrix(rnorm(n*n.iter), ncol=n)

sim <- function(mu) {
  stouffer.sim <- apply(z + mu, 1, 
                    function(y) {q <- pnorm(sum(y)/sqrt(length(y))); 2*min(q, 1-q)})
  chisq.sim <- apply(z + mu, 1, 
                    function(y) 1 - pchisq(sum(y^2), length(y)))
  #fisher.sim <- apply(z + mu, 1,
  #                  function(y) {q <- pnorm(y); 
  #                     1 - pchisq(-2 * sum(log(2*pmin(q, 1-q))), 2*length(y))})
  return(list(stouffer=stouffer.sim, chisq=chisq.sim, fisher=fisher.sim))
}

par(mfrow=c(2, 3))
breaks=seq(0, 1, .05)
tmp <- sapply(c(0, .1, .2, .3, .4, .6), 
              function(mu) {
                x <- sim(mu); 
                hist(x[[1]], breaks=breaks, xlab="p", col="#ff606060",
                     main=paste("Mu =", mu)); 
                hist(x[[2]], breaks=breaks, xlab="p", col="#6060ff60", add=TRUE)
                #hist(x[[3]], breaks=breaks, xlab="p", col="#60ff6060", add=TRUE)
                })

Еще раз спасибо, это очень приятно. А что будет, если вы раскомментируете метод Фишера? Я подозреваю, что вы уже попробовали это. Стоуфер последовательно выигрывает? (Извините, что не попробовал это сам, но у меня нет опыта работы с R, и у меня его нет под рукой.)
говорит амеба Восстановить Монику

Обновление: относительно сравнения между методами Фишера и Стоуффера, я нашел хорошее обсуждение здесь . Утверждается, что Стоуффер более чувствителен к постоянным отклонениям от нуля, тогда как Фишер более чувствителен к одиночным (но большим) отклонениям. Я предполагаю, что в вашей симуляции у вас были постоянные отклонения ( одинаковы во всех тестах), верно? Интересно, что произойдет, если только 1 из тестов покажет сильное отклонение. N NμNN
говорит амеба: восстанови Монику

1
Вы можете легко изменить Rсимуляцию, чтобы проверить это. Это был бы хороший способ представить себя этой статистической вычислительной платформе. :-)
whuber

2
Я использовал Matlab для воспроизведения вашего моделирования. Выводы: когда все последовательно отклоняются от 0, то Стоуффер выигрывает у Фишера с небольшим отрывом, а метод «мой» безнадежно проигрывает (как вы показали). Когда только один из сильно отклоняется от 0, Фишер выигрывает у «моего» метода с небольшим отрывом, а Стуффер безнадежно проигрывает. z izizi
говорит амеба, восстанови Монику

Отличная дискуссия и QA! Один быстрого вопрос: что делать , если один формы этой проблемы как останец / обнаружение аномалий пути вычисления Махаланобиса расстояния и последующее что - то вроде этого ?
NULL

10

Один из общих способов получить представление о статистике тестирования - это вывести (как правило, неявные) базовые предположения, которые позволят сделать эту статистику теста наиболее эффективной. Для этого конкретного случая студент и я недавно сделали это: http://arxiv.org/abs/1111.1210v2 (пересмотренная версия должна появиться в «Анналах прикладной статистики»).

Чтобы очень кратко суммировать (и в соответствии с результатами моделирования в другом ответе) метод Стоуффера будет наиболее мощным, когда «истинные» базовые эффекты все равны; сумма Z ^ 2 будет наиболее сильной, когда лежащие в основе эффекты обычно распределяются около 0. Это небольшое упрощение, которое опускает детали: см. раздел 2.5 в препринте arxiv, связанном выше, для более подробной информации.


2
(+1) Почему-то я думал, что написал это давным-давно, но, похоже, я этого не сделал: большое спасибо за регистрацию здесь специально для ответа на мой вопрос! Я признателен за это. Раздел 2.5 в вашей статье действительно очень актуален.
говорит амеба: восстанови монику

3

Немного о / т: одной из проблем обоих этих подходов является потеря мощности из-за степеней свободы (N для Стоуффера; 2N для Фишера). Для этого были разработаны лучшие метааналитические подходы, которые вы, возможно, захотите рассмотреть (например, взвешенный метаанализ с обратной дисперсией).

Если вы ищете доказательства каких-то альтернативных тестов в группе, вы можете посмотреть статистику критики Донохо и Джина: https://projecteuclid.org/euclid.aos/1085408492


1

Чтобы ответить на этот вопрос и для дальнейших читателей: используется ли он когда-либо ?, есть исчерпывающая статья Cousins ​​(2008) об arXiv, в которой перечислены и рассмотрены несколько альтернативных подходов. Предлагаемый, похоже, не появляется.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.