Бенджамини и Хохберг определяют уровень ложных открытий так же, как я, как долю положительных тестов, которые являются ложными. Поэтому, если вы используете их процедуру для множественных сравнений, вы правильно контролируете FDR. Однако стоит отметить, что вариантов метода ЧД достаточно много. Семинары Бенджамини в Беркли на Youtube, и их стоит посмотреть:
Я не уверен, почему @amoeba говорит: «Это сформулировано слишком сильно и может вводить в заблуждение». Мне было бы интересно узнать, почему он / она так думает. Наиболее убедительным аргументом являются смоделированные t-тесты (раздел 6). Это имитирует то, что почти все делают на практике, и это показывает, что если вы наблюдаете P около 0,047 и утверждаете, что сделали открытие, вы ошибетесь по крайней мере в 26% случаев. Что может пойти не так?
Конечно, я не должен описывать это как минимум. Это то, что вы получите, если предположите, что есть реальный эффект 50%. Конечно, если вы предполагаете, что большинство ваших гипотез заранее верны, то вы можете получить более низкий FDR, чем 26%, но можете ли вы представить себе веселье, которое приветствовало бы утверждение, что вы сделали открытие на основании предположения что вы были на 90% уверены заранее, что ваш вывод будет верным. 26% - это минимальный FDR, учитывая, что для логического вывода нет разумных оснований предполагать, что какая-либо предварительная вероятность превышает 0,5.
Учитывая, что догадки часто не выдерживают испытания, вполне возможно, что вероятность того, что какая-то конкретная гипотеза окажется верной, составляет всего 10%, и в этом случае FDR будет иметь катастрофические 76%.
Это правда, что все это зависит от нулевой гипотезы о том, что существует нулевая разница (так называемая точка ноль). Другие варианты могут дать разные результаты. Но суть ноль - это то, что почти каждый использует в реальной жизни (хотя может и не знать об этом). Кроме того, нуль кажется мне вполне подходящим для использования. Иногда возражают, что истинные различия никогда не бывают равны нулю. Я не согласен. Мы хотим сказать, отличаются ли наши результаты от случая, когда обеим группам даны одинаковые методы лечения, поэтому истинная разница точно равна нулю. Если мы решим, что наши данные несовместимы с этим представлением, мы продолжаем оценивать величину эффекта. и в этот момент мы делаем отдельное суждение о том, является ли эффект, хотя и реальным, достаточно большим, чтобы быть важным на практике.Блог Деборы Майо .
@amoeba Спасибо за ваш ответ.
Обсуждение в блоге Мейо показывает, в основном, что Мейо не согласен со мной, хотя она не объяснила почему, по крайней мере мне). Стивен Сенн правильно указывает, что вы можете получить другой ответ, если постулируете другое предварительное распространение. Мне кажется, что это интересно только субъективным байесовцам.
Это, безусловно, не имеет отношения к повседневной практике, которая всегда принимает точку ноль. И, как я объяснил, мне кажется, что это совершенно разумная вещь.
Многие профессиональные статистики пришли к выводам, почти таким же, как мои. Попробуйте Sellke & Berger и Valen Johnson (ссылки в моей статье). В моих заявлениях нет ничего очень противоречивого (или очень оригинального).
Ваша другая точка зрения, касающаяся предположения о 0.5 априорных, вообще не кажется мне предположением. Как я объяснил выше, все, что выше 0,5, будет неприемлемым на практике. И все, что ниже 0,5, увеличивает вероятность ложного обнаружения (например, 76%, если предыдущий равен 0,1). Поэтому вполне разумно сказать, что 26% - это минимальный уровень ложных обнаружений, который вы можете ожидать, если наблюдаете P = 0,047 в одном эксперименте.
Я больше думал об этом вопросе. Мое определение FDR такое же, как у Бенджамини - доля ложных положительных тестов. Но это относится к совершенно другой проблеме, интерпретации одного теста. Оглядываясь назад, возможно, было бы лучше, если бы я выбрал другой термин.
В случае одного теста B & H оставляет значение P без изменений, поэтому ничего не говорит о частоте ложного обнаружения в том смысле, в котором я использую этот термин.
Конечно, вы правы. Бенджамини и Хохберг, а также другие люди, работающие над множественными сравнениями, стремятся только исправить частоту ошибок типа 1. Таким образом, они в конечном итоге с "правильным" значением P. Он подвержен тем же проблемам, что и любое другое значение P. В моей последней статье я изменил название с FDR на False Positive Risk (FPR), чтобы избежать этого недоразумения.
Мы также написали веб-приложение для выполнения некоторых вычислений (заметив, что мало кто скачивает предоставляемые нами R-скрипты). Это на https://davidcolquhoun.shinyapps.io/3-calcs-final/ Все мнения по этому поводу приветствуются (пожалуйста, сначала прочтите вкладку «Примечания»).
PS У веб-калькулятора теперь есть новый (постоянный, я надеюсь) по адресу http://fpr-calc.ucl.ac.uk/
Shiny.io, который прост в использовании, но очень дорог, если кто-то действительно использует приложение :-(
Я вернулся к этой дискуссии, теперь, когда моя вторая статья по этой теме должна появиться в Королевском обществе открытой науки. Это на https://www.biorxiv.org/content/early/2017/08/07/144337
Я понимаю, что самая большая ошибка, которую я сделал в первой статье, заключалась в использовании термина «уровень ложных открытий (FDR)». В новой статье я уточняю, что ничего не говорю о проблеме множественных сравнений. Я имею дело только с вопросом о том, как интерпретировать значение P, которое наблюдается в одном несмещенном тесте.
В последней версии я имею в виду вероятность того, что результатом будет ложноположительный риск (FPR), а не FDR, в надежде уменьшить путаницу. Я также выступаю за обратный байесовский подход - укажите предварительную вероятность, которая потребуется для обеспечения FPR, скажем, 5%. Если вы наблюдаете P = 0,05, то получается 0,87. Другими словами, вы должны были быть почти (87%) уверены, что перед проведением эксперимента был достигнут реальный эффект для достижения FPR 5% (что, по ошибкам, большинство людей все еще считает, что p = 0,05 означает).