При объединении p-значений, почему бы не просто усреднить?


44

Недавно я узнал о методе Фишера для комбинирования p-значений. Это основано на том факте, что значение p при нулевом значении соответствует равномерному распределению и что которое, я думаю, это гений Но мой вопрос: зачем идти по этому извилистому пути? и почему бы не (что не так) просто использовать среднее значение p-значений и использовать центральную предельную теорему? или медиана? Я пытаюсь понять гениальность Р.А. Фишера за этой грандиозной схемой.

2i=1nlogXiχ2(2n), given XUnif(0,1)

24
Все сводится к основной аксиоме вероятности: р-значения - это вероятности, а вероятности для результатов независимых экспериментов не складываются, а умножаются. Что касается умножения, логарифмы упрощают произведение до суммы: where log ( X i ) . (То, что оно имеет распределение хи-квадрат, является неизбежным математическим следствием.) Далеко не начинать «запутанно», это, пожалуй, самая простая и наиболее естественная (законная) процедура из всех возможных. log(Xi)
whuber

5
Скажем, у меня есть 2 независимых образца из одной популяции (скажем, у нас есть один образец t-критерия). Представьте, что среднее значение выборки и стандартные отклонения примерно одинаковы. Таким образом, значение p для первого образца составляет 0,0666, а для второго образца - 0,0668. Каким должно быть общее значение p? Ну, это должно быть 0.0667? На самом деле, совершенно очевидно, что оно должно быть меньше. В этом случае «правильная» вещь - это объединить образцы, если они у нас есть. У нас будет примерно одинаковое среднее значение и стандартное отклонение, но в два раза больше выборки . Стандартный ошибка среднего меньше, а значение р должно быть меньше.
Glen_b

3
Конечно, есть и другие способы комбинирования значений p, хотя продукт является наиболее естественным способом сделать это. Например, можно добавить p-значения; при объединенном нуле их сумма должна иметь треугольное распределение. Или можно преобразовать p-значения в z-значения и добавить их (и если бы вы комбинировали результаты из не слишком маленьких выборок аналогичного размера из обычной популяции, это имело бы большой смысл). Но продукт - очевидный способ продолжить; это логично каждый раз.
Glen_b

1
g2nlogg=2log(gn)

1
Я бы попросил каждого прочитать статью Дункана Мердока «P-значения - это случайные величины» в «Американском статистике». Я нахожу копию онлайн в: hypergeometric.files.wordpress.com/2013/09/…
DWin

Ответы:


35

p

sα2i=1nlogpiH0pU(0,1)2ilogpisααH0

α=0.05sαχ2(2n)ipiesα/2αn=2sα=9.49

рыболов

1ni=1npiipitαpitααtαnn=2tα=(2α)12

сумма значений р

Как вы можете себе представить, многие другие формы для зоны отклонения возможны и были предложены. Это не априори ясно, что лучше - то есть, что имеет большую силу.

p1p2z

> p1 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )
> p2 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )

Давайте посмотрим на диаграмму рассеяния с красными точками, для которых нулевая гипотеза отклонена.

разброс точек

Сила метода продукта Фишера примерно

> sum(p1*p2<exp(-9.49/2))/1e4
[1] 0.2245

p

> sum(p1+p2<sqrt(0.1))/1e4
[1] 0.1963

Так что метод Фишера выигрывает - по крайней мере, в этом случае.


2
n=2tα=2αn=3n>30.5nn/12

1
p

26

p

p

Еще их можно сложить. На самом деле, именно это было предложено Эджингтоном (1972). Аддитивный метод для объединения значений вероятности из независимых экспериментов (под платой), и иногда его называют методом Эджингтона. В статье 1972 года говорится, что

Показано, что аддитивный метод является более мощным, чем мультипликативный метод, и с большей вероятностью, чем мультипликативный метод, дает существенные результаты, когда действительно имеются эффекты лечения.

но, учитывая, что метод остается относительно неизвестным, я подозреваю, что это было по крайней мере упрощение. Например, недавний обзор Cousins ​​(2008). Аннотированная библиография некоторых работ по комбинированию значений или p-значений вообще не упоминает метод Эджингтона, и кажется, что этот термин также никогда не упоминался в CrossValidated.

pz2z

Таким образом, ответ на общий вопрос о том, почему вообще используется какой-либо «запутанный» метод, заключается в том, что можно получить власть.

Зайкин и др. (2002) Метод усеченного произведения для объединения значений p запускает некоторые симуляции и включает в себя метод Эджингтона, но я не уверен насчет выводов.

n=2

Объединение р-значений

Сказав все это, я думаю, что все еще остается вопрос о том, почему метод Эджингтона (часто?) Будет неоптимальным, как следует из его неясности.

n=2p1=0.4p2α=0.05p2=0.00000001

pp=0.001p=0.00000001


p

p

S=p1++pk,
SSp Однако численных исследований этой процедуры практически не проводилось.

1
Спасибо, @Glen_b! Я рад, что эта тема получила дополнительную и заслуженную видимость. Кстати, я не знал, что эта процедура называется «методом Эджингтона», пока я не начал исследовать этот ответ.
амеба говорит восстановить монику

9

Итак, если вы провели три исследования одинаковых размеров и получили значение р 0,05 во всех трех случаях, ваша интуиция заключается в том, что «истинное значение» должно быть 0,05? Моя интуиция отличается. Множество аналогичных результатов, по-видимому, делают значимость более высокой (и, следовательно, р-значения, которые являются вероятностями, должны быть ниже). Значения P на самом деле не являются вероятностями. Это утверждения о распределении выборки наблюдаемых значений в рамках определенной гипотезы. Я полагаю, что это могло поддержать идею о том, что ими можно злоупотреблять как таковыми. Я сожалею, что сделал это утверждение.

Во всяком случае, при нулевой гипотезе о разнице, шансы получить несколько экстремальных значений р, казалось бы, гораздо более маловероятно. Каждый раз, когда я вижу утверждение, что значение p равномерно распределено от 0 до 1 в соответствии с нулевой гипотезой, я чувствую себя обязанным проверить его с помощью симуляции, и до сих пор это утверждение, похоже, выполняется. Я, очевидно, не думаю, сознательно в логарифмическом масштабе, хотя, по крайней мере, часть моей мозговой нейронной сети должна.

Если вы хотите дать количественную оценку этой интуиции, предложенная вами формула (с небольшими изменениями) появится на странице Википедии: http://en.wikipedia.org/wiki/Fisher%27s_method , а соответствующая графика позволит вам определить количественно визуально и полу- количественно влияние получения двух малых значений р на общую значимость. Например, при считывании из цветного кодированного изображения 2 одновременных значения р 0,05 дают синтетическое значение р около 0,02. Вы также можете исследовать влияние удвоения размера выборки на t-статистику. Размер выборки входит в t-статистику выборки как 1 / sqrt (n-1), чтобы вы могли посмотреть на влияние этого фактора в результате перехода от 50 до 100. (в R :)

 plot(1:100, 1/sqrt(1:100) ,ylim=c(0,1) )
 abline(h=1/sqrt(c(50,100)))

Эти два подхода дают разные количественные результаты, так как отношение значений 1 / sqrt (n) для 50 и 100 не совпадает с отношением от 0,05 до 0,02. Оба подхода поддерживают мою интуицию, но в разной степени. Может быть, кто-то еще может решить это несоответствие. Тем не менее, третий подход заключается в рассмотрении вероятности получения двух случайных ничьих «Истина», когда биномиальная вероятность каждой ничьи была 0,05. (крайне несправедливая игра в кости) Это совместное событие должно иметь вероятность .05 * .05 = .002, результат которого можно рассматривать на «другой стороне» оценки Фишера. Я только что запустил симуляцию 50000 одновременных тестов. Если вы нанесете результаты, то это будет очень похоже на карты поля космического фонового излучения ... т.е. в основном случайный

 t1 <- replicate(50000, t.test(rnorm(50))$p.value )
     t2 <- replicate(50000, t.test(rnorm(50))$p.value )
 table(t1 < 0.05, t2 < 0.05)
 plot(t1, t2, cex=0.1)
#        FALSE  TRUE
#  FALSE 45099  2411
#  TRUE   2380   110
 110/(50000-110)
#[1] 0.002204851

Спасибо за ваш ответ. Интуиция, которую вы упомянули, действительно имеет смысл. Я бы посчитал упомянутые вами случаи более значительными. Но есть ли способ выразить эту идею более математически строго?
Алби

palpha

Я видел это. Не был убежден.
DWin

1
p1=0.05p2=0.05

Метод усреднения «подчеркивает» или взвешивает сложную гипотезу о том, что обе отдельные гипотезы будут отвергнуты вместе. Это кажется невысказанным ограничением.
DWin
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.