Что не так с настройками Бонферрони?


23

Я прочитал следующую статью: Perneger (1998) Что не так с корректировками Бонферрони .

В заключение автор сказал, что корректировка Бонферрони в лучшем случае имеет ограниченное применение в биомедицинских исследованиях и не должна использоваться при оценке доказательств конкретной гипотезы:

Сводные моменты:

  • Корректировка статистической значимости для количества тестов, которые были выполнены на данных исследования - метод Бонферрони - создает больше проблем, чем решает
  • Метод Бонферрони связан с общей нулевой гипотезой (что все нулевые гипотезы верны одновременно), которая редко представляет интерес или полезна для исследователей.
  • Основным недостатком является то, что интерпретация результатов зависит от количества других выполненных тестов.
  • Вероятность ошибок типа II также увеличивается, так что действительно важные различия считаются несущественными
  • Простое описание того, какие тесты значимости были выполнены и почему, как правило, является лучшим способом справиться с множественными сравнениями.

У меня есть следующий набор данных, и я хочу сделать несколько тестовых исправлений, НО я не могу выбрать лучший метод в этом случае.

введите описание изображения здесь

Я хочу знать, обязательно ли делать такого рода исправления для всех наборов данных, которые содержат списки средств, и каков наилучший метод для исправления в этом случае?


что именно означает «значит А», «значит В» ...?

3
По не исправляя для множественных сравнений вы рискуете невоспроизводимых результатов. Многие области, в том числе медицина и психология, недавно обнаружили, что именно это и произошло: большая часть того, что они «знают» на основе нескорректированных значений р, оказывается, просто не так. Не имея смысла казаться циничным, похоже, что выбор очевиден: исследователь, которому необходимо соответствовать критерию p-значения, не будет корректным; скептик, который хочет знания, будет.
whuber

@whuber, но можно ли все еще считать его воспроизводимым, когда доступно так много разных методов для исправления p-значений? В своем ответе Мартино даже дает указания выбирать между менее консервативными или более мощными методами.
Nakx

Воспроизводимость @Nakx слабо связана со статистической процедурой: она относится к тому, будут ли сопоставимые результаты получены, когда исследование независимо выполняется другими (и, вероятно, в таких попытках воспроизвести, одна ясная гипотеза будет сформулирована заранее и будет использоваться статистическая процедура, соответствующая этой гипотезе). Если исходная процедура не дает правильного значения p, то при многократном использовании для многих независимых исследований она в среднем сделает более невоспроизводимые определения, чем ее пользователи предполагают или ожидают.
whuber

Ответы:


23

Что не так с поправкой Бонферрони, кроме упомянутого другими консерватизма, так это то, что не так со всеми поправками множественности. Они не вытекают из основных статистических принципов и являются произвольными; в мире частых людей нет единственного решения проблемы множественности. Во-вторых, корректировки множественности основаны на основной философии, согласно которой достоверность одного утверждения зависит от того, какие другие гипотезы поддерживаются. Это эквивалентно байесовской установке, в которой предыдущее распределение для интересующего параметра продолжает становиться более консервативным, так как рассматриваются другие параметры. Это не кажется последовательным. Можно сказать, что этот подход основан на том, что исследователи были «сожжены» историей ложноположительных экспериментов, и теперь они хотят компенсировать свои проступки.

Чтобы немного расширить, рассмотрим следующую ситуацию. Исследователь в области онкологии сделал карьеру в изучении эффективности химиотерапии определенного класса. Все предыдущие 20 ее рандомизированных исследований привели к статистически незначимой эффективности. Сейчас она тестирует новую химиотерапию в том же классе. Выгода выживания значительна спзнак равно0.04, Коллега отмечает, что была изучена вторая конечная точка (уменьшение опухоли) и что необходимо применить поправку на множественность к результату выживания, что дает незначительную выгоду для выживания. Как получилось, что коллега подчеркнул вторую конечную точку, но не заботился о корректировке 20 предыдущих неудачных попыток найти эффективный препарат? И как бы вы приняли во внимание предыдущие знания о 20 предыдущих исследованиях, если бы вы не были байесовскими? Что если бы не было второй конечной точки. Поверит ли коллеге, что пособие на выживание было продемонстрировано, игнорируя все предыдущие знания?


2
Не ясно в отношении «повторяемые». Если есть один тест, не требующий корректировки кратности, вероятность повторения результата с невелика. пзнак равно0.04
Фрэнк Харрелл

2
Чтобы ответить на @MJA, я думаю, что есть два предпочтительных подхода: (1) быть байесовским или (2) расставить приоритеты для гипотез и сообщить результаты в контексте, в порядке приоритета.
Фрэнк Харрелл

3
В этом нет ничего принципиального и ни в коем случае не точного. Неравенство Бонферрони является верхней границей только для вероятности ошибки. Зачем тратить одинаково по 5 параметрам? Почему бы не сделать эллипсоидальную область вместо прямоугольной для области принятия? Почему бы не использовать метод Шеффе или Тьюки? Почему бы не использовать простой составной тест типа ANOVA? Вы не достичь желаемого альфа , используя в равенстве. αα
Фрэнк Харрелл

2
Вы используете две ошибки. При нулевом, Bonferroni ТОЧНО поддерживает ожидаемое количество ошибок на семью. Это дает верхнюю границу вероятности «хотя бы одной» ошибки на семью (которая зависит от корреляции). Равномерное использование альфа-канала на 5 тестах совершенно логично, поскольку нет особой причины расставлять приоритеты в тестах по-другому. Учитывая другой контекст, есть принципиальные причины поступить иначе. Похоже, вы подразумеваете, что «непринципиально» использовать математически обоснованный метод просто потому, что существуют альтернативные методы с учетом других контекстов, целей и предположений.
Бонферрони

2
@FrankHarrell Ваши другие вопросы служат только для иллюстрации моей точки зрения. Часто существует множество вариантов статистики теста, процедуры тестирования и т. Д. Даже при отсутствии множественности. Это не делает методологию «произвольной» в том смысле, в котором вы, похоже, намекаете. Если кто-то заинтересован в омнибус-тесте, то обязательно проведите его. Если кто-то заинтересован только в одномерных тестах, то непременно проводите одномерные тесты. Вы серьезно предполагаете, что «произвольно» выбирать тест, который отвечает на интересующий вас вопрос, а не какой-то другой вопрос?
Бонферрони

12

Он резюмировал, сказав, что корректировка Бонферрони в лучшем случае имеет ограниченное применение в биомедицинских исследованиях и не должна использоваться при оценке доказательств конкретной гипотезы.

Поправка Бонферрони является одним из самых простых и консервативных методов множественных сравнений. Он также является одним из старейших и значительно улучшился с течением времени. Справедливо сказать, что корректировки Bonferroni имеют ограниченное применение практически во всех ситуациях. Существует почти наверняка лучший подход. То есть вам нужно будет исправить несколько сравнений, но вы можете выбрать метод, который менее консервативный и более мощный.

Менее консервативный

Методы множественных сравнений защищают от получения хотя бы одного ложноположительного результата в семействе тестов. Если вы выполните один тест на уровне то у вас будет 5% шанс получить ложное срабатывание. Другими словами, вы ошибочно отвергаете свою нулевую гипотезу. Если вы выполните 10 тестов на уровне α = 0,05, то это увеличится до 1 - ( 1 - 0,05 ) 10 = ~ 40% вероятности получения ложного срабатыванияαα=0.051(10.05)10

Используя метод Бонферрони, вы используете на самом нижнем конце шкалы (то есть α b = α / n ), чтобы защитить свою семью n тестов на уровне α . Другими словами, это самый консервативный. Теперь вы можете увеличить α b выше нижнего предела, установленного Bonferroni (т.е. сделать свой тест менее консервативным), и при этом защитить свою семью тестов на уровне α . Есть много способов сделать это, например, метод Хольма-Бонферрони или, что еще лучше, уровень ложных открытийαbαb=α/nnααбα

Более могущественный

Хорошая мысль, о которой говорится в статье, на которую ссылаются, заключается в том, что вероятность ошибок типа II также увеличивается, так что действительно важные различия считаются несущественными.

Это очень важно. Мощный тест - это тот, который находит значительные результаты, если они существуют. Используя коррекцию Бонферрони, вы получаете менее мощный тест. Поскольку Бонферрони консервативен, власть, вероятно, будет значительно уменьшена. Опять же, один из альтернативных методов, например, False Discovery Rate, увеличит мощность теста. Другими словами, вы не только защищаете от ложных срабатываний, вы также улучшаете свою способность находить действительно значимые результаты.

Так что да, вы должны применять некоторые методы коррекции, когда у вас есть несколько сравнений. И да, Бонферрони, вероятно, следует избегать в пользу менее консервативного и более мощного метода.


Есть несколько альтернатив - например, Холм Бонферрони прост и легок для понимания. Почему бы не попробовать. Допустим, ваше приложение относится к экспрессии генов или белков, где вы тестируете, возможно, тысячи переменных в эксперименте, тогда как вы обычно используете FDR.
Мартино

Ваш метод расчета вероятности ложных срабатываний в 40% в десяти тестах основан на том, что ваши тесты являются независимыми событиями, но для реальных данных это маловероятно. Я думаю, что это по крайней мере заслуживает комментариев.
Серебряная

Я также обеспокоен тем, что этот ответ, по-видимому, объединяет методы сохранения частоты ошибок по семейным обстоятельствам с методами, применяемыми для уровня ложных открытий. Обсуждение этих двух вещей не является плохой идеей, но, поскольку они выполняют разную работу, я не думаю, что они должны быть представлены в качестве эквивалента
Silverfish

Но если я хорошо понимаю, FDR (ложные скорости обнаружения) не гарантируют контроль ошибок типа I на заранее определенном уровне? (см. также мой ответ на этот вопрос)

Но не является ли более прозрачным и полезным сообщить обо всех необработанных p-значениях в статье, чтобы читатели могли сами судить об их достоверности или выбрать, какой из множества методов корректировки они хотят использовать?
Nakx

5

Томас Пернегер не является статистиком, и его статья полна ошибок. Так что я бы не отнесся к этому слишком серьезно. На самом деле это было сильно раскритиковано другими. Например, Айкин сказал, что статья Пернегера «почти полностью состоит из ошибок»: Айкин, «Существует другой метод настройки множественного тестирования», BMJ. 1999 янв. 9; 318 (7176): 127.

Кроме того, ни одно из p-значений в исходном вопросе в любом случае <0,05, даже без корректировки множественности. Так что, вероятно, не имеет значения, какая корректировка (если есть) используется.


4
Спасибо за ссылку! Я добавил более полную ссылку. Это все еще скорее комментарий, чем ответ, и я уверен, что вам есть что добавить, или хотя бы краткое изложение того, что говорит Айкен. Не имеет отношения к этому: говорить, что Пернегер не имеет опыта в области статистики, не кажется правдивым (по любым разумным стандартам), дружелюбным или полезным - вы бы рассмотрели удаление заявления?
Scortchi - Восстановить Монику

@ Scortchi, который я изменил, «не имеет опыта в области статистики» на «не является статистиком». Кстати, я не согласен с тем, что не стоит отличать мнения экспертов от мнений не экспертов.
Бонферрони

2
Насколько я могу судить, Пернегер не имеет ученой степени по статистике и никогда не публиковал статьи в статистическом журнале. Статья, процитированная в этом вопросе, - это статья общественного мнения в BMJ, которая была названа за то, что она совершенно не права. Так какой же предполагаемый опыт Пернегера является бесспорным "вне всякого разумного стандарта"? Быть «любезным» не должно мешать правде.
Бонферрони

3
Насколько я могу судить, он профессор университетской больницы с магистром биостатистики и доктором эпидемиологии, который читает лекции по медицинской статистике и публикует анализы клинических испытаний и наблюдательных исследований в медицинских журналах. Если вы сделаете вывод из этого «отсутствия статистической экспертизы», я думаю, что ваш стандарт гораздо выше, чем вы могли бы ожидать от своих читателей. (Это то, что я должен был сказать, а не то, что стандарт был необоснованным.) В любом случае, спасибо за редактирование!
Scortchi - Восстановить Монику

5

Может быть, это хорошо, чтобы объяснить «обоснование» множественных исправлений тестирования, таких как Bonferroni. Если это ясно, тогда вы сможете сами судить, следует ли вам применять их или нет.

μЧАС0:μзнак равно0

ЧАС1:μ0ЧАС0:μзнак равно0α

ЧАС0ЧАС0

ЧАС0ЧАС0ЧАС1

Ложные доказательства - плохая вещь в науке, потому что мы считаем, что получили истинные знания о мире, но на самом деле нам, возможно, не повезло с образцом. Эти виды ошибок должны, следовательно, контролироваться. Поэтому следует установить верхний предел вероятности такого рода доказательств, или следует контролировать ошибку I типа. Это делается путем предварительного определения приемлемого уровня значимости.

5%ЧАС05%ЧАС0ЧАС1ЧАС1

ЧАС0:μ1знак равно0&μ2знак равно0ЧАС1:μ10|μ20αзнак равно0,05

ЧАС0(1):μ1знак равно0ЧАС0(1):μ10ЧАС1(2):μ2знак равно0ЧАС1(2):μ20αзнак равно0,05

ЧАС0(1)ЧАС0(1)

1-(1-0,05)2знак равно0,0975α

Важным фактом здесь является то, что два теста основаны на одном и образце sampe!

Обратите внимание, что мы приняли независимость. Если вы не можете принять независимость, вы можете показать, используя неравенство Бонферрони $, что ошибка типа I может привести к увеличению до 0,1.

Обратите внимание, что Бонферрони является консервативным и что пошаговая процедура Холма выполняется в тех же предположениях, что и для Бонферрони, но процедура Холма имеет большую силу.

Когда переменные являются дискретными, лучше использовать статистику тестов, основанную на минимальном p-значении, и, если вы готовы отказаться от контроля ошибок типа I при выполнении большого количества тестов, процедуры False Discovery Rate могут быть более мощными.

РЕДАКТИРОВАТЬ :

Если например (см. Пример в ответе @Frank Harrell)

ЧАС0(1):μ1знак равно0ЧАС1(1):μ10

ЧАС0(2):μ1знак равно0ЧАС1(2):μ20

ЧАС0(12):μ1знак равно0&μ2знак равно0ЧАС1(12):μ10|μ20

ЧАС0(1)ЧАС1(1)ЧАС0(2)ЧАС1(2)


2
Я думаю, что этот вопрос выигрывает от такого ответа, но я предлагаю ужесточить формулировку «Итак, если мы установим наш уровень значимости на уровне 5%, то мы говорим, что готовы принять ложные доказательства (из-за неудачи с образцом ) с вероятностью 5% "... Это только вероятность ошибки, если значение NULL действительно истинно , и это стоит сказать. (Является ли «ложное доказательство» распространенным термином? Я больше привык видеть «ложное срабатывание».)
Серебряная

@Silverfish; Я перефразировал это немного, как ты думаешь, так лучше?

1
Я думаю, что это лучше - «статистически доказано», вероятно, также выиграет от перефразирования, я знаю, это то, сколько людей интерпретируют p <0,05 или что-то еще, но, конечно, это не совсем доказательство!
Серебряная

@Silverfish: Я полностью согласен с тем, что это не «доказательство», но я использовал этот термин по дидактическим причинам, потому что я начал с аналогии с доказательством от противоречия. Я добавлю такое разъяснение в начале

Ваше редактирование сбивает с толку. «Эффект химиотерапии» в примере Фрэнка измеряется с помощью двух показателей: выживаемости и усадки опухоли. Оба могут быть под влиянием химиотерапии. Гипотеза, очевидно, что химиотерапия работает. Но «работы» могут быть определены количественно двумя различными способами. Это аспект неопределенности, о котором я говорил в вашей новой теме.
говорит амеба, восстанови Монику

4

Приятное обсуждение коррекции Бонферрони и размера эффекта http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Кроме того , коррекция Dunn-Sidak и комбинированные вероятности Фишера подхода стоит рассматривать в качестве альтернативы. Независимо от подхода стоит сообщить как скорректированные, так и необработанные значения p плюс размер эффекта, чтобы читатель мог свободно их интерпретировать.


Советы по представлению как сырых, так и скорректированных значений p всегда казались мне разумными, но обычно ли это считается нормой или даже приемлемым?
Серебряная

3

С одной стороны, это чрезвычайно консервативно. Метод Холма-Бонферрони выполняет то же, что и метод Бонферонни (контролирует частоту ошибок по семейным причинам), и в то же время является более мощным.


Означает ли это, что мне нужно использовать этот метод для исправления моих результатов, или я должен принять результаты в зависимости от моей гипотезы.
Горо

Я не знаю, что вы имеете в виду под «я должен принять результаты в зависимости от моей гипотезы», но да, вы должны применить какую-то множественную коррекцию тестирования, потому что в противном случае вы сильно раздувает ошибку типа 1.
TrynnaDoStat

Что я имел в виду под «я должен принять результаты в зависимости от моей гипотезы», так это то, что я провел свой анализ тремя различными способами, включая методы GLM и перестановки. все методы дали мне значительные результаты, и эти результаты подтверждают мою гипотезу о том, что у меня должно быть значительное различие между группами. Когда я использовал Бонферрони для множественной коррекции. Все мои результаты были незначительными. Вот почему я в замешательстве. Этот метод не оптимален для моего анализа, поэтому я могу использовать другой или я могу доверять своим результатам в зависимости от результатов других методов без использования Bonferroni?
Горо

1
Хорошо, я понимаю, что вы говорите. Если бы вы проверяли одну и ту же гипотезу тремя разными способами, я бы не применил множественную проверку исправления. Причина в том, что эти три результата теста, по-видимому, сильно зависят друг от друга.
TrynnaDoStat

3

Следует рассматривать методы «Ложного обнаружения» как менее консервативную альтернативу Бонферрони. Видеть

Джон Д. Стори, "ПОЗИТИВНАЯ ЛОЖНАЯ СКОРОСТЬ ОТКРЫТИЯ: БАЙЕССКАЯ ИНТЕРПРЕТАЦИЯ И Q-ЗНАЧЕНИЕ", Annals of Statistics 2003, Vol. 31, № 6, 2013–2035 гг.


3
Они контролируют разные вещи, хотя. FDR гарантирует, что до 5% (или какой бы ни была ваша альфа) ваших звонков являются ложными срабатываниями, что отличается от сохранения частоты ошибок по семейным обстоятельствам (что делает Bonferroni).
Мэтт Краузе

@Matt Krause: И если я хорошо понимаю, FDR (ложные показатели обнаружения) не гарантируют контроль ошибок типа I на заранее определенном уровне? (см. также мой ответ на этот вопрос)
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.