Может ли метаанализ исследований, которые «не являются статистически значимыми», привести к «существенному» заключению?


29

Мета-анализ включает в себя ряд исследований, все из которых сообщили о значении P, превышающем 0,05. Возможно ли для общего метаанализа сообщить значение P менее 0,05? При каких обстоятельствах?

(Я почти уверен, что ответ - да, но мне нужна ссылка или объяснение.)


1
Я мало знаю о метаанализе, но у меня сложилось впечатление, что он не включает никаких проверок гипотез, а только оценку влияния совокупности, и в этом случае нет понятия важности, о котором можно говорить.
Кодиолог

1
Ну, метаанализ - в конце дня - это просто взвешенное среднее. И вы, безусловно, можете настроить проверку гипотезы для этого взвешенного среднего. См., Например, Borenstein, Michael, et al. «Базовое введение в модели с фиксированным и случайным эффектом для мета-анализа». Методы синтеза исследований 1.2 (2010): 97-111.
Boscovich

1
Другие ответы также хороши, но простой случай: два исследования значимы при р = 0,9, но не р = 0,95. Вероятность того, что в двух независимых исследованиях будет показано, что p> = 0,9, составляет всего 0,01, поэтому ваш метаанализ может показать значимость при p = 0,99
баррикартер

2
Возьмите предел: ни одно измерение не может предоставить достаточно доказательств для / против (нетривиальной) гипотезы, чтобы иметь маленькое значение п , но достаточно большой набор измерений может.
Эрик Тауэрс

Значения р не указывают ни на «статистически значимый», ни на незначительный эффект. Что мы можем понять из важного заключения? Это метааналитический вывод?
Субхаш С. Давар

Ответы:


31

В теории да ...

Результаты отдельных исследований могут быть незначительными, но если смотреть вместе, результаты могут быть значительными.

В теории вы можете продолжить путем обработки результатов Yя из исследования я , как и любой другой случайной величины.

Пусть - некоторая случайная величина (например, оценка из исследования i ). Тогда, если y i независимы и E [ y i ] = μ , вы можете последовательно оценить среднее с помощью:YяяYяЕ[Yя]знак равноμ

μ^знак равно1NΣяYя

Добавляя больше предположений, пусть будет дисперсией оценки y i . Тогда вы можете эффективно оценить μ с помощью обратного взвешивания дисперсии:σя2Yяμ

μ^знак равноΣявесяYявесязнак равно1/σя2ΣJ1/σJ2

В любом из этих может быть статистически значим на каком - то уровне доверия , даже если отдельные оценки не являются.μ^

НО могут быть большие проблемы, вопросы, которые нужно знать ...

  1. Если то метаанализ может не сходиться к μ (т.е. среднее значение метаанализа является противоречивой оценкой).Е[Yя]μμ

    Например, если есть предубеждение против публикации отрицательных результатов, этот простой метаанализ может быть ужасно непоследовательным и предвзятым! Это было бы все равно, что оценить вероятность того, что монета подбрасывает головы, наблюдая за бросками только там, где она не приземлилась!

  2. и y j не могут быть независимыми. Например, если два исследования i и j были основаны на одних и тех же данных, то обработка y i и y j как независимой в мета-анализе может значительно недооценить стандартные ошибки и преувеличить статистическую значимость. Ваши оценки по-прежнему будут последовательными, но стандартные ошибки должны разумно учитывать взаимную корреляцию в исследованиях.YяYJяJYяYJ

  3. Объединение (1) и (2) может быть особенно плохим.

    Например, метаанализ усредняющих опросов вместе имеет тенденцию быть более точным, чем любой отдельный опрос. Но усреднение опросов вместе все еще уязвимо для коррелированной ошибки. Что-то, что возникло на прошлых выборах, заключается в том, что молодые работники экзит-поллов могут иметь тенденцию брать интервью у других молодых людей, а не стариков. Если все выходные опросы дают одинаковую ошибку, то у вас неверная оценка, которая может показаться вам хорошей оценкой (выходные опросы коррелированы, потому что они используют один и тот же подход к проведению выходных опросов, и этот подход генерирует ту же ошибку).

Несомненно, люди, более знакомые с метаанализом, могут придумать лучшие примеры, более тонкие вопросы, более сложные методы оценки и т. Д., Но это касается одной из самых основных теорий и некоторых более серьезных проблем. Если различные исследования допускают независимую случайную ошибку, то метаанализ может быть невероятно мощным. Если ошибка является систематической в ​​разных исследованиях (например, все недооценивают избирателей старшего возраста и т. Д.), То среднее значение исследований также будет выключено. Если вы недооцениваете, насколько коррелированы исследования или насколько коррелированы ошибки, вы фактически переоцениваете свой совокупный размер выборки и недооцениваете свои стандартные ошибки.

Есть также все виды практических вопросов последовательных определений и т.д ...


1
Я критикую метаанализ за игнорирование зависимостей между размерами эффекта (то есть многие размеры эффекта были основаны на одних и тех же участниках, но рассматривались как независимые). Авторы говорят, что нет, мы просто заинтересованы модераторами в любом случае. Я подчеркиваю то, что вы высказали здесь: трактовать их как «независимые в метаанализе могут значительно недооценить стандартные ошибки и преувеличить статистическую значимость». Есть ли исследование / моделирование, показывающее, почему это так? У меня есть много ссылок, говорящих, что коррелированные ошибки означают недооценку SE ... но я не знаю почему?
Марк Уайт

1
@MarkWhite Основная идея не сложнее, чем . Если для всехiмы имеемVar(Xi)=σ2иCov(Xi,Xj)=0дляij,тоVar(1Var(1NΣяИкся)знак равно1N2(ΣяVar(Икся)+ΣяJCov(Икся,ИксJ))яVar(Икся)знак равноσ2Cov(Икся,ИксJ)знак равно0яJ и ваша стандартная ошибкаσVar(1NΣяИкся)знак равноσ2N . С другой стороны, если ковариационные члены являются положительными и большими, стандартная ошибка будет больше. σN
Мэтью Ганн

@MarkWhite Я не эксперт по мета-анализу, и я, честно говоря, не знаю, что является хорошим источником того, как следует проводить современный мета-анализ. Концептуально, копирование анализа на тех же данных, безусловно, полезно (как интенсивное изучение некоторых предметов), но это не то же самое, что воспроизведение результатов по новым, независимым предметам.
Мэтью Ганн

1
Ах, так в словах: полная дисперсия размера эффекта происходит из (а) его дисперсии и (б) его ковариации с другими размерами эффекта. Если ковариация равна 0, тогда стандартная оценка ошибки является хорошей; но если он коваризуется с другими величинами эффекта, мы должны учитывать эту дисперсию, и игнорирование ее означает, что мы недооцениваем дисперсию. Как будто дисперсия состоит из двух частей A и B, и игнорирование зависимостей предполагает, что часть B равна 0, когда это не так?
Марк Уайт

1
Кроме того, этот источник выглядит хорошим (особенно см. Вставку 2): nature.com/neuro/journal/v17/n4/pdf/nn.3648.pdf
Марк Уайт,

29

Да. Предположим, у вас есть p-значений из N независимых исследований.NN

Тест Фишера

(РЕДАКТИРОВАТЬ - в ответ на полезный комментарий @ mdewey, приведенный ниже, важно различать различные мета-тесты. Я изложу случай другого мета-теста, упомянутого mdewey ниже)

Классический мета-тест Фишера (см. Fisher (1932), «Статистические методы для научных работников» ) статистика имеет нулевое распределение χ 2 2 N , так как - 2 ln ( U ) ~ χ 2 2 для равномерного с.в. U .

Fзнак равно-2Σязнак равно1Nпер(пя)
χ2N2-2пер(U)~χ22U

Пусть обозначить ( 1 - альфа ) -quantile из распределения нуля.χ2N2(1-α)(1-α)

Предположим, что все значения p равны , где, возможно, c > α . Тогда F = - 2 N ln ( c ) и F > χ 2 2 N ( 1 - α ), когда c < exp ( - χ 2 2 N ( 1 - α )сс>αFзнак равно-2Nпер(с)F>χ2N2(1-α) Например, дляα=0,05иN=20отдельные значенияpдолжны быть меньше

с<ехр(-χ2N2(1-α)2N)
αзнак равно0,05Nзнак равно20п
> exp(-qchisq(0.95, df = 40)/40)
[1] 0.2480904

Конечно, мета-статистические тесты - это «только» «совокупный» нуль, что все отдельные нули являются истиной, который должен быть отклонен, как только один из нулей будет ложным.N

РЕДАКТИРОВАТЬ:

Вот график «допустимых» p-значений против , который подтверждает, что c растет в N , хотя, кажется, выравнивается при c 0.36 .NсNс0,36

введите описание изображения здесь

χ2

χ2N2(1α)2N+2log(1/α)+22Nlog(1/α),
χ2N2(1α)=O(N)exp(χ2N2(1α)2N)exp(1)Nexp(1)0.3679

Обратный нормальный тест (Stouffer et al., 1949)

Zзнак равно1NΣязнак равно1NΦ-1(пя)
Φ-1Z<-1,645αзнак равно0,05пязнак равносZзнак равноNΦ-1(с)с<0,5Φ1(c)<0ZpNc0.5ZNN

Z<1.645c<Φ(1.645/N)Φ(0)=0.5N


2
1/e

Благодарность :-). Я не ожидал ни того, ни другого, прежде чем увидел сюжет ...
Кристоф Ханк

5
Интересно, что метод из-за Фишера - единственный из обычно используемых методов, который обладает этим свойством. Для большинства других то, что вы называете F, увеличивается с N, если $ c> 0,5), и уменьшается в противном случае. Это относится к методу Стоуффера и методу Эджингтона, а также к методам, основанным на логитах и ​​среднем значении p. Различные методы, которые являются частными случаями метода Уилкинсона (минимум p, максимум p и т. Д.), Снова имеют разные свойства.
mdewey

1
1/e

p=0.9п

4

p

пα*

п[1]п[2]...п[К]
К
п[1]<1-(1-α*)1К

Кα*п[1]α*

пп[р]1рКрзнак равно2пзнак равно0,09

Метод Л. Х. Типпетта описан в книге Методы статистики. 1931 (1-е изд) и метод Уилкинсона здесь в статье «Статистическое рассмотрение в психологическом исследовании»


1
Спасибо. Но обратите внимание, что большинство методов метаанализа комбинируют величины эффекта (учитывая разницу в размере выборки) и не комбинируют значения P.
Харви Мотульский

@HarveyMotulsky согласился с тем, что объединение p-значений является последним средством, но ОП пометил свой вопрос тегом combining-p-values, поэтому я ответил в этом духе
mdewey

Я думаю, что ваш ответ правильный.
Субхаш С. Давар
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.