Это, очевидно, было бы абсолютным кошмаром на практике, но предположим, что это может быть сделано: мы назначаем Статистического Султана, и каждый, кто запускает проверку гипотезы, сообщает своему деспоту свои необработанные . Он выполняет какую-то глобальную (буквально) множественную коррекцию сравнений и отвечает исправленными версиями.п
Это вступит в золотой век науки и разума? Нет, наверное нет.
Начнем с рассмотрения одной пары гипотез, как в
тесте. Мы измеряем некоторое свойство двух групп и хотим различить две гипотезы об этом свойстве:
H 0 : группы имеют одинаковое среднее значение. H A : Группы имеют разные средства.
В конечной выборке средние значения вряд ли будут в точности равны, даже если
H 0 действительно истинно: ошибка измерения и другие источники изменчивости могут сдвигать отдельные значения. Тем не менее,
H 0TЧАС0:ЧАСA: Группы имеют одинаковое среднее значение. Группы имеют разные средства.
ЧАС0ЧАС0Гипотеза в некотором смысле «скучная», и исследователи, как правило, стремятся избежать «ложноположительной» ситуации, в которой они утверждают, что обнаружили разницу между группами, в которых на самом деле ничего не существует. Поэтому мы называем результаты «значимыми» только в том случае, если они кажутся маловероятными при нулевой гипотезе, и, по соглашению, этот порог неправдоподобности установлен на уровне 5%.
Это относится к одному тесту. Теперь предположим, что вы решили запустить несколько тестов и готовы принять 5% -ный шанс ошибочного принятия для каждого. С достаточным количеством тестов вы почти наверняка начнете делать ошибки, и их будет много.ЧАС0
Различные подходы с множественными исправлениями предназначены для того, чтобы помочь вам вернуться к номинальному коэффициенту ошибок, который вы уже выбрали для отдельных тестов. Они делают это по-разному. Методы, которые управляют уровнем ошибок по семейным причинам , такие как процедуры Bonferroni , Sidak и Holm , говорят: «Вы хотели 5% -ый шанс сделать ошибку в одном тесте, поэтому мы гарантируем, что вас не больше, чем 5». % вероятности допустить ошибки во всех ваших тестах. " Методы, которые контролируют уровень ложных открытийВместо этого скажите: «Вы, очевидно, согласны с тем, что в одном тесте вы ошибаетесь до 5% времени, поэтому мы гарантируем, что при выполнении нескольких тестов не более 5% ваших« вызовов »будут неправильными». (Увидеть разницу?)
Теперь предположим, что вы пытались контролировать частоту ошибок по
всем тестам гипотез, которые когда-либо выполнялись. По сути, вы говорите, что вы хотите <5% -ный шанс ложного отклонения любой нулевой гипотезы, когда-либо. Это устанавливает невероятно строгий порог, и вывод будет фактически бесполезен, но есть еще более насущная проблема: ваша глобальная коррекция означает, что вы тестируете абсолютно бессмысленные «сложные гипотезы», такие как
ЧАС1:Препарат XYZ изменяет количество Т-клеток ∧В некоторых полях виноград растет лучше ∧… ∧ … ∧ … ∧ … ∧Мужчины и женщины едят разное количество мороженого
С исправлениями в False Discovery Rate, численная проблема не так серьезна, но философски все еще беспорядок. Вместо этого имеет смысл определить «семейство» связанных тестов, например, список генов-кандидатов во время исследования геномики или набор частотно-временных подборок во время спектрального анализа. Адаптация вашей семьи к конкретному вопросу позволяет вам на самом деле интерпретировать вашу ошибку типа I напрямую. Например, вы можете взглянуть на скорректированный FWER набор p-значений из ваших собственных геномных данных и сказать: «Существует вероятность <5%, что любой из этих генов является ложноположительным». Это намного лучше, чем туманная гарантия, которая охватывает выводы, сделанные людьми, которые вас не волнуют, по темам, которые вас не волнуют.
Обратной стороной этого является то, что соответствующий ему выбор «семьи» является дискуссионным и немного субъективным (все ли гены - одна семья или я могу просто рассмотреть киназы?), Но это должно быть связано с вашей проблемой, и я никому не верю всерьез выступает за определение семей почти так широко.
Как насчет Байеса?
Байесовский анализ предлагает последовательную альтернативу этой проблеме - если вы готовы немного отойти от структуры ошибок Frequentist Type I / Type II. Мы начинаем с некоторой необязательности до ... ну ... все. Каждый раз, когда мы чему-то учимся, эта информация объединяется с априором, чтобы создать апостериорное распределение, которое, в свою очередь, становится априором в следующий раз, когда мы что-то узнаем. Это дает вам согласованное правило обновления, и вы можете сравнить различные гипотезы о конкретных вещах, рассчитав коэффициент Байеса между двумя гипотезами. Вы могли бы предположительно выделить большие куски модели, что даже не сделало бы это особенно обременительным.
Существует постоянный ... мем, что байесовские методы не требуют множественных исправлений сравнений. К сожалению, задние шансы являются еще одной статистикой теста для частых (то есть людей, которым небезразличны ошибки типа I / II). У них нет специальных свойств, которые контролируют эти типы ошибок (Почему бы им?). Таким образом, вы вернулись на неразрешимую территорию, но, возможно, на несколько более принципиальной почве.
Байесовский контраргумент состоит в том, что мы должны сосредоточиться на том, что мы можем знать сейчас, и, таким образом, эти показатели ошибок не так важны.
На воспроизводимость
Вы, кажется, предполагаете, что неправильная множественная коррекция сравнений является причиной множества неверных / невоспроизводимых результатов. Я чувствую, что другие факторы, скорее всего, будут проблемой. Очевидным является то, что давление на публикацию заставляет людей избегать экспериментов, которые действительно подчеркивают их гипотезу (то есть, плохой экспериментальный дизайн).
п