Почему множественное сравнение является проблемой?


44

Мне трудно понять, в чем на самом деле проблема множественных сравнений . По простой аналогии говорят, что человек, который примет много решений, совершит много ошибок. Поэтому применяются очень консервативные меры предосторожности, такие как коррекция Бонферрони, с тем чтобы сделать вероятность того, что этот человек совершит любую ошибку, настолько низко, насколько это возможно.

Но почему мы заботимся о том, допустил ли человек какую-либо ошибку среди всех принятых им решений, а не о проценте ошибочных решений?

Позвольте мне попытаться объяснить, что смущает меня другой аналогией. Предположим, что есть два судьи, одному 60 лет, а другому 20 лет. Затем поправка Бонферрони говорит тому, кому 20 лет, быть настолько консервативным, насколько это возможно, при принятии решения о казни, потому что он будет работать еще много лет в качестве судьи, будет принимать гораздо больше решений, поэтому он должен быть осторожен. Но тот, кому 60 лет, возможно, скоро уйдет на пенсию, будет принимать меньше решений, поэтому он может быть более небрежным по сравнению с другим. Но на самом деле оба судьи должны быть одинаково осторожны или консервативны, независимо от общего количества решений, которые они примут. Я думаю, что эта аналогия более или менее переводит на реальные проблемы, где применяется коррекция Бонферрони, что я считаю противоречивым.


8
на самом деле не является ответом на ваш вопрос, но сталкивались ли вы с ошибочными показателями обнаружения (FDR)? «За пределами Бонферрони» Нарума: springerlink.com/content/c5047h0084528056
apeescape

Ответы:


40

Вы изложили что-то, что является классическим контраргументом к поправкам Бонферрони. Разве я не должен корректировать свой альфа-критерий на основе каждого теста, который я когда-либо сделаю? Этот вид ad absurdum подразумевает, что некоторые люди вообще не верят в исправления стиля Бонферрони. Иногда данные, с которыми им приходится иметь дело в своей карьере, таковы, что это не проблема. Для судей, которые принимают одно или очень мало решений по каждому новому доказательству, это очень веский аргумент. Но как насчет судьи с 20 обвиняемыми, который основывает свое решение на одном большом наборе данных (например, военных трибуналах)?

Вы игнорируете удары по баночной части аргумента. Обычно ученые ищут что-то - значение p меньше, чем альфа. Каждая попытка найти его - это еще один удар по банке. Один в конечном итоге найдет его, если сделает достаточно выстрелов. Поэтому они должны быть оштрафованы за это.

То, как вы согласовываете эти два аргумента, состоит в том, чтобы понять, что оба они верны. Самое простое решение состоит в том, чтобы рассматривать тестирование различий в одном наборе данных как удар по проблеме типа банки, но это расширяет область коррекции за пределы, что было бы скользким уклоном.

Это действительно трудная проблема в ряде областей, в частности в FMRI, где сравниваются тысячи точек данных, и некоторые из них могут оказаться значимыми случайно. Учитывая, что область была исторически очень исследовательской, нужно что-то сделать, чтобы исправить тот факт, что сотни областей мозга будут выглядеть значимыми чисто случайно. Поэтому в этой области было разработано много методов корректировки критерия.

С другой стороны, в некоторых областях можно в большинстве случаев рассматривать от 3 до 5 уровней переменной и всегда просто проверять каждую комбинацию, если происходит значительный ANOVA. Известно, что это имеет некоторые проблемы (ошибки типа 1), но это не особенно страшно.

Это зависит от вашей точки зрения. Исследователь FMRI признает реальную необходимость изменения критерия. Человек, смотрящий на маленькую ANOVA, может почувствовать, что там есть что-то от теста. Надлежащая консервативная точка зрения на множественные сравнения состоит в том, чтобы всегда что-то с ними делать, но только на основе одного набора данных. Любые новые данные сбрасывают критерий ... если вы не байесовский ...


Спасибо, это было очень полезно. Я буду голосовать, когда у меня будет достаточно представителей.
AgCl

Исследователь FMRI, вероятно, также использовал бы критерий FDR, поскольку он гарантирует альфа * 100% ложных срабатываний в течение длительного периода испытаний.
Брэндон Шерман

@John, не могли бы вы ответить на этот вопрос stats.stackexchange.com/questions/431011/… Буду рад, если вы сможете мне помочь.
Саббир Ахмед

26

Уважаемые статистики заняли самые разные позиции в нескольких сравнениях. Это тонкий предмет. Если кто-то думает, что это просто, я хотел бы знать, сколько они думают об этом.

Вот интересный байесовский взгляд на множественное тестирование от Эндрю Гельмана: почему мы (обычно) не беспокоимся о множественных сравнениях .


2
Что мне показалось интересным в этой статье, так это то, что перспектива байесовская, но подход иерархического моделирования, предложенный для замены поправок для множественных сравнений, не требует, чтобы вы были байесовскими.
сопряженное

1
Я просто смотрел на эту статью; Я думаю, может быть, это нужно процитировать больше. Я ненавижу эффекты смыва вниз, потому что продвинутые методы множественного сравнения не очень хорошо известны или их трудно реализовать. В отличие от этого, более простой подход. Интересно, есть ли серьезные проблемы с этим, которые нужно рассмотреть.
Расселпирс


13

Что касается предыдущего комментария, то, что должен помнить исследователь ФМРТ, это то, что важны клинически важные результаты, а не сдвиг плотности одного пикселя на ФМРТ мозга. Если это не приводит к клиническому улучшению / ущербу, это не имеет значения. Это один из способов уменьшить беспокойство о множественных сравнениях.

Смотрите также:

  1. Бауэр П. (1991). Многократное тестирование в клинических испытаниях. Stat Med, 10 (6), 871-89; обсуждение 889-90.
  2. Прошан М.А. и Ваклавив М.А. (2000). Практические рекомендации по корректировке множественности в клинических испытаниях. Контрольные клинические испытания, 21 (6), 527-39.
  3. Ротман, К.Дж. (1990). Для множественных сравнений корректировки не требуются. Эпидемиология (Кембридж, штат Массачусетс), 1 (1), 43-6.
  4. Perneger, TV (1998). Что не так с настройками бонферрони. BMJ (Clinical Research Ed.), 316 (7139), 1236-8.

Это также , безусловно , стоит процитировать: prefrontal.org/files/posters/Bennett-Salmon-2009.jpg
Nico

Я уверен, что им было очень весело расспросить мертвого лосося о его эмоциях !!!
Нико

Этот пост также содержит полезные ссылки, связанные с РКИ: j.mp/bAgr1B .
ЧЛ

10

Чтобы исправить идеи: я возьму случай, когда вы пересекаете, независимых случайных величин таких, что для берется из . Я предполагаю, что вы хотите знать, какое из них имеет ненулевое среднее значение, формально вы хотите проверить:n(Xi)i=1,,ni=1,,n XiN(θi,1)

H0i:θi=0 противH1i:θi0

Определение порога: вам нужно принять решений, и у вас может быть другая цель. Для данного теста определенно выберу порог и решу не принимать если .niτiH0i|Xi|>τi

Различные варианты: Вы должны выбрать пороги и для этого у вас есть два варианта :τi

  1. выбрать одинаковый порог для всех

  2. выбрать разные пороговые значения для каждого (чаще всего пороговое значение для данных, см. ниже).

Различные цели: эти параметры могут быть использованы для различных целей, таких как

  • Контроль вероятности ошибочного отклонения для одного или нескольких .H0ii
  • Управление ожиданием коэффициента ложной тревоги (или частоты ложных открытий)

    Какова бы ни была ваша цель в конце, это хорошая идея использовать порог для данных.

Мой ответ на ваш вопрос: ваша интуиция связана с основной эвристикой выбора порога для данных. Это следующее (в начале процедуры Холма, которая более мощная, чем Бонферони):

Представьте, что вы уже приняли решение для самого низкогои решение состоит в том, чтобы принять для всех из них. Тогда вам нужно только сделать сравнения и вы не рискуете ошибочно отклонить ! Поскольку вы не использовали свой бюджет, вы можете пойти на немного больший риск для оставшегося теста и выбрать больший порог.| X я | H 0 i n - p H 0 ip|Xi|H0inpH0i

В случае ваших судей: я полагаю (и я полагаю, вы должны сделать то же самое), что оба судьи имеют одинаковые бюджеты ложных обвинений за свою жизнь. 60-летний судья может быть менее консервативным, если в прошлом он никого не обвинял! Но если он уже сделал много обвинений, он будет более консервативен и, возможно, даже больше, чем самый молодой судья.


Я думаю, что у вас есть опечатка в ваших гипотезах - они оба кажутся одинаковыми ...
walkytalky

2

Иллюстрирующая (и забавная) статья; http://www.jsur.org/ar/jsur_ben102010.pdf ) о необходимости множественной коррекции тестирования в некоторых практических исследованиях, в которых развивается множество переменных, например, fmri. Эта короткая цитата говорит большую часть сообщения:

«[...] мы завершили сеанс сканирования МРТ с посмертным атлантическим лососем в качестве субъекта. Лососю показали ту же самую социальную перспективную задачу, которая позже была поставлена ​​группе людей».

по моему опыту, это потрясающий аргумент, побуждающий пользователей использовать несколько тестовых исправлений.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.