Почему множественные гипотезы не применяются ко всем экспериментам с незапамятных времен?


24

Мы знаем, что мы должны применять поправки Бенджамини-Хохберга для проверки нескольких гипотез к экспериментам, основанным на одном наборе данных, чтобы контролировать частоту ложных открытий, иначе все эксперименты, которые дают положительный результат, могут быть ложными.

Но почему мы не применяем этот же принцип ко всем экспериментам с начала времен, независимо от того, откуда поступают данные?

В конце концов, более половины опубликованных научных результатов, которые считаются «значительными», теперь, как известно, являются ложными и невоспроизводимыми, и нет никаких причин, по которым это не может быть так просто на 100%. Поскольку ученые, как правило, публикуют только положительные результаты, мы не имеем представления о количестве отрицательных результатов, поэтому мы не имеем понятия, являются ли то, что мы публикуем, только ложными срабатываниями - положительными результатами, которые неожиданно возникли в результате случайной гипотезы. Между тем, нечего сказать, что математика, лежащая в основе множественных исправлений проверки гипотез, должна применяться только к результатам из того же набора данных, а не к результатам всех экспериментальных данных, полученных с течением времени.

Кажется, что вся наука превратилась в одну большую рыболовную экспедицию, основанную на ложных или слабых гипотезах, так как мы можем контролировать это?

Как мы можем контролировать частоту ложных открытий, если все, что мы когда-либо публикуем, являются независимыми результатами, полученными без применения какой-либо коррекции для проверки множественных гипотез по всем экспериментам, выполненным до настоящего времени?

Это можно контролировать частоту ложного обнаружения без применения некоторой такой коррекции?


2
Ваш собственный вопрос meta.stats.stackexchange.com/questions/3049/… применяется. Это связывает несколько спорных (в некоторых случаях сильно преувеличенных) утверждений с несколькими большими вопросами. Я думаю, что это идет вразрез с консенсусом совета, который уже дан вам.
Ник Кокс

3
Извините, я не знаю, на какие ответы вы ссылаетесь: здесь я не вижу ссылок. Я не голосую за закрытие, и (естественно) у меня нет ни желания, ни власти, чтобы люди не отвечали. Но, например, «с незапамятных времен» является небольшим примером бессмысленного преувеличения, и в вашем посте есть несколько других. Само по себе провокационное, по моему опыту с этим сайтом, само по себе не поможет решению основного вопроса. Читатели должны отделить стиль от сущности.
Ник Кокс

3
Спасибо за приглашение, но жизнь коротка. Я позволю моей перекрестной ссылке на мета-поток стать моей главной точкой. Я высказал свое мнение о стиле и содержании, которые могут стоять или падать по существу здесь.
Ник Кокс

9
Если я занимаюсь наукой, мне все равно, какие ложные открытия вы сделали. В самом деле, в отношении конкретных научных утверждений мне может быть наплевать, что я сделал с другими ложными открытиями . Если я не занимаюсь наукой, меня может даже не волновать, какие еще ложные открытия я сделал в этом конкретном анализе - потому что, если я выберу свой уровень ошибок типа I на основе относительной стоимости двух типов ошибок, я уже выбрал компромисс между двумя, и вообще не должен корректировать множественные сравнения.
Glen_b

2
К счастью, другие представили взгляды, похожие на мои, с убедительностью и ясностью. В качестве дополнительного комментария я советую не связывать науку (что-либо имеющее какую-то длительную ценность) с ее литературой. Есть много способов, которыми разочаровывает литература: неопределенность, тривиальность, логические ошибки и т. Д. В аннотации всех смущает мысль обо всех этих опубликованных ложноположительных тестах, но им нужно верить и действовать так, чтобы они имели длительный эффект. (Если это испытание на наркотики, это может иметь большое значение.) Итак, есть много вещей, о которых нужно беспокоиться, но я не думаю, что наука обречена.
Ник Кокс

Ответы:


20

Это, очевидно, было бы абсолютным кошмаром на практике, но предположим, что это может быть сделано: мы назначаем Статистического Султана, и каждый, кто запускает проверку гипотезы, сообщает своему деспоту свои необработанные . Он выполняет какую-то глобальную (буквально) множественную коррекцию сравнений и отвечает исправленными версиями.п

Это вступит в золотой век науки и разума? Нет, наверное нет.


Начнем с рассмотрения одной пары гипотез, как в тесте. Мы измеряем некоторое свойство двух групп и хотим различить две гипотезы об этом свойстве: H 0 :  группы имеют одинаковое среднее значение. H A :  Группы имеют разные средства. В конечной выборке средние значения вряд ли будут в точности равны, даже если H 0 действительно истинно: ошибка измерения и другие источники изменчивости могут сдвигать отдельные значения. Тем не менее, H 0T
ЧАС0: Группы имеют одинаковое среднее значение.ЧАСA: Группы имеют разные средства.
ЧАС0ЧАС0Гипотеза в некотором смысле «скучная», и исследователи, как правило, стремятся избежать «ложноположительной» ситуации, в которой они утверждают, что обнаружили разницу между группами, в которых на самом деле ничего не существует. Поэтому мы называем результаты «значимыми» только в том случае, если они кажутся маловероятными при нулевой гипотезе, и, по соглашению, этот порог неправдоподобности установлен на уровне 5%.

Это относится к одному тесту. Теперь предположим, что вы решили запустить несколько тестов и готовы принять 5% -ный шанс ошибочного принятия для каждого. С достаточным количеством тестов вы почти наверняка начнете делать ошибки, и их будет много.ЧАС0

Различные подходы с множественными исправлениями предназначены для того, чтобы помочь вам вернуться к номинальному коэффициенту ошибок, который вы уже выбрали для отдельных тестов. Они делают это по-разному. Методы, которые управляют уровнем ошибок по семейным причинам , такие как процедуры Bonferroni , Sidak и Holm , говорят: «Вы хотели 5% -ый шанс сделать ошибку в одном тесте, поэтому мы гарантируем, что вас не больше, чем 5». % вероятности допустить ошибки во всех ваших тестах. " Методы, которые контролируют уровень ложных открытийВместо этого скажите: «Вы, очевидно, согласны с тем, что в одном тесте вы ошибаетесь до 5% времени, поэтому мы гарантируем, что при выполнении нескольких тестов не более 5% ваших« вызовов »будут неправильными». (Увидеть разницу?)


Теперь предположим, что вы пытались контролировать частоту ошибок по всем тестам гипотез, которые когда-либо выполнялись. По сути, вы говорите, что вы хотите <5% -ный шанс ложного отклонения любой нулевой гипотезы, когда-либо. Это устанавливает невероятно строгий порог, и вывод будет фактически бесполезен, но есть еще более насущная проблема: ваша глобальная коррекция означает, что вы тестируете абсолютно бессмысленные «сложные гипотезы», такие как

ЧАС1:Препарат XYZ изменяет количество Т-клеток Виноград лучше растет на некоторых полях ............Мужчины и женщины едят разное количество мороженого

С исправлениями в False Discovery Rate, численная проблема не так серьезна, но философски все еще беспорядок. Вместо этого имеет смысл определить «семейство» связанных тестов, например, список генов-кандидатов во время исследования геномики или набор частотно-временных подборок во время спектрального анализа. Адаптация вашей семьи к конкретному вопросу позволяет вам на самом деле интерпретировать вашу ошибку типа I напрямую. Например, вы можете взглянуть на скорректированный FWER набор p-значений из ваших собственных геномных данных и сказать: «Существует вероятность <5%, что любой из этих генов является ложноположительным». Это намного лучше, чем туманная гарантия, которая охватывает выводы, сделанные людьми, которые вас не волнуют, по темам, которые вас не волнуют.

Обратной стороной этого является то, что соответствующий ему выбор «семьи» является дискуссионным и немного субъективным (все ли гены - одна семья или я могу просто рассмотреть киназы?), Но это должно быть связано с вашей проблемой, и я никому не верю всерьез выступает за определение семей почти так широко.


Как насчет Байеса?

Байесовский анализ предлагает последовательную альтернативу этой проблеме - если вы готовы немного отойти от структуры ошибок Frequentist Type I / Type II. Мы начинаем с некоторой необязательности до ... ну ... все. Каждый раз, когда мы чему-то учимся, эта информация объединяется с априором, чтобы создать апостериорное распределение, которое, в свою очередь, становится априором в следующий раз, когда мы что-то узнаем. Это дает вам согласованное правило обновления, и вы можете сравнить различные гипотезы о конкретных вещах, рассчитав коэффициент Байеса между двумя гипотезами. Вы могли бы предположительно выделить большие куски модели, что даже не сделало бы это особенно обременительным.

Существует постоянный ... мем, что байесовские методы не требуют множественных исправлений сравнений. К сожалению, задние шансы являются еще одной статистикой теста для частых (то есть людей, которым небезразличны ошибки типа I / II). У них нет специальных свойств, которые контролируют эти типы ошибок (Почему бы им?). Таким образом, вы вернулись на неразрешимую территорию, но, возможно, на несколько более принципиальной почве.

Байесовский контраргумент состоит в том, что мы должны сосредоточиться на том, что мы можем знать сейчас, и, таким образом, эти показатели ошибок не так важны.


На воспроизводимость

Вы, кажется, предполагаете, что неправильная множественная коррекция сравнений является причиной множества неверных / невоспроизводимых результатов. Я чувствую, что другие факторы, скорее всего, будут проблемой. Очевидным является то, что давление на публикацию заставляет людей избегать экспериментов, которые действительно подчеркивают их гипотезу (то есть, плохой экспериментальный дизайн).

п


Спасибо Мэтт. Мне нравится идея «Статистического султана». Тем не менее, возможно ли контролировать частоту ложных обнаружений, не применяя такую ​​коррекцию?
Кельвин

9
Дело в том что я пытался сделать то , что это не имеет смысла беспокоиться о The Ложный Discovery Rate (или частоты ошибок familywise) во всех начинаниях человека. Для этого потребуется так много неприятия риска, что вы никогда ничего не сделаете. Вместо этого вы держите FDR / FWER для отдельных экспериментов довольно низким и пытаетесь воспроизвести важные вещи, которые также интересны / полезны / и т.д.
Мэтт Краузе

Спасибо, я думаю, в конечном итоге все сводится к тиражированию важных вещей. Это полностью согласуется с философией науки о том, что ни одна гипотеза не может быть доказана, только укреплена с течением времени повторными экспериментами.
Кельвин

3
+1 для Статистического Султана. Одно важное соображение: как Султан должен обрабатывать тот факт, что p-значения поступают последовательно? Паршивое р = 0,045, прибывающее первым, будет считаться значительным, но через пару столетий не будет шансов? Это, кажется, не имеет смысла (см. @Kelvin). Другое соображение: представьте, что султан должен был ждать, скажем, 1 год, и применить исправление ко всем результатам этого прошлого года; Интересно, какой на самом деле скорректированный альфа-порог станет на практике. Есть идеи по этому поводу, Мэтт? Это (ложно!) При условии, что все согласны с общей альфой.
говорит амеба: восстанови монику

2
@amoeba, это интересный вопрос, и я не уверен, что знаю. Наш любимый Data Despot может заставить всех использовать какой-то последовательный дизайн, который может помочь, но он все еще проверяет эту странную составную гипотезу. С другой стороны, мы все могли бы стать байесовцами и перестать беспокоиться о нашей истории ошибок типа I / II большую часть времени. Это немного дешево (если вы не можете победить их, игнорируйте их!), Но я думаю, что это близко к тому, как люди ведут себя на практике.
Мэтт Краузе

7

Я думаю, что вы сознательно рисуете пессимистический взгляд на науку, созданный статистикой. Действительно, на мой взгляд, статистика - это не просто набор инструментов, обеспечивающих значения p. Существует также состояние строгости, осторожности и бдительности в отношении некоторых возможных эффектов, связанных с процедурой научной индукции ... и хотя, на мой взгляд, все, что вы заявляете, примерно верно, вот некоторые из моих мнений о том, почему у нас есть некоторые гарантии о знаниях, которые мы производим:

  • Во-первых, в общем, заключение не должно быть сделано только при аргументе значения ap ниже, чем данный порог.

  • Во-вторых, насколько мне известно, аргументы типа «более половины опубликованных научных результатов неверны» актуальны и интересны, но они рассчитываются на основе значений p, приблизительно равных 0,05 (см., Например, Путаницу в отношении значений p и частоты ложных открытий ) , Для более низких значений p эффект намного ниже, чем объявленный, и на практике нередко получают значения p, намного меньшие, чем 0,05. Более того, много раз данная гипотеза подтверждается несколькими подгипотезами, что снова уменьшает заявленные эффекты.

  • В-третьих, вопрос воспроизводимости является подлинным, но также является проблемой, которая должна решаться статистиком путем выявления и устранения смешанных эффектов, групповых разработок ... и это можно сделать очень хорошо, если сделать это с опытом и тщательностью.

  • Наконец, насколько я понимаю, архетипическое статистическое исследование должно более или менее опираться на следующие 5 последовательных шагов:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    Это общее руководство не позволяет нам проводить рыболовные экспедиции как инструмент для выработки общих выводов.

В заключение я бы сказал, что ваше намерение защитить нас от неверных научных выводов с помощью чрезмерных пороговых значений p является немного иллюзорным. Я бы предпочел защитить нас от плохих научных выводов, обеспечив и поощряя предупреждающий и надлежащий анализ (и я хотел бы думать, что это причина, почему так много квалифицированных специалистов здесь, чтобы помогать другим на этом сайте).


2
Я не думаю, что это помогает защищаться. Текущая проблема невоспроизводимости в науке не просто «интересна», она находится в критической точке и находится на обложке журнала Nature и даже The Economist, поскольку стоит ли верить в конкретное исследование (или даже в эффективность утвержденного препарата ) сейчас ничуть не лучше монеты, несмотря на вложенные миллиарды долларов.
Кельвин

6
Я согласен, что кризис существует. Я хочу сказать, что вы можете проверить качество монеты. Не все бумаги имеют одинаковое качество, и из моего опыта иногда легко указать недостатки бумаги. Я не отрицаю проблему, я отрицаю решение: просто произведите надлежащий анализ :)
peuhp

Хорошо, спасибо, я уважаю ваш ответ. Но все же со статистической точки зрения, и независимо от качества экспериментов, мы никогда не сможем контролировать общую частоту ложных открытий без применения некоторой такой коррекции, не так ли?
Кельвин

0

Можно ли контролировать частоту ложного обнаружения, не применяя такую ​​коррекцию?

100aa

Помните, что частота ошибок (частых) вовсе не связана с какими-либо вероятностями гипотезы, проверяемой каким-либо отдельным тестом, а как с методикой проведения тестов с гарантированным уровнем долгосрочных отказов. Поправка для множественных сравнений - это еще один метод, гарантирующий частоту долгосрочных отказов: один для построения составных методов, которые содержат множественные тесты, так что некоторые гарантированные частоты долгосрочных отказов для соединения сохраняются.

Если вы проведете один эксперимент со 100 тестами и сообщите, что 5 из них выступили против нулевого значения, утверждая, что вы наблюдали какой-то реальный результат, никто не будет впечатлен, зная, что в среднем среди 100 тестов истинных нулей 5% будут отклонять; метод, который вы использовали, «проведите 100 тестов и сообщите, соответствует ли какой-либо из них порог 5%», имеет более высокий уровень отказов, чем 5%. Таким образом, вы можете контролировать несколько сравнений и сообщить, что, например, в 2 из 100 тестов значения p были ниже (5/100 == 0,05)%. Теперь вы используете метод, который опять-таки имеет гарантированную частоту отказов (для сообщения об ошибке, по крайней мере, один значимый тест, даже если ни одна из гипотез не является ложной) в размере 5%.

a, не исправленные пороги). Напротив, если бы каждый всегда проверял 100 истинных гипотез в исследовании и не применял FEW, число экспериментов, сообщавших о значительных эффектах, превысило бы гарантированный уровень ошибок в 5%. (Сравните с FDR / False Detection Rate, который не является методом, который гарантирует скорость сообщения о каком-либо значимом тесте при исследовании нескольких тестов истинных гипотез.)


6
То, что вы называете «уровнем ложных открытий» в первом абзаце, не является так называемым «уровнем ложных открытий».
говорит амеба: восстанови монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.