Каковы практические различия между процедурами оценки ложных обнаружений Benjamini & Hochberg (1995) и Benjamini & Yekutieli (2001)?

Моя статистическая программа реализует процедуры FDR Benjamini & Hochberg (1995) и Benjamini & Yekutieli (2001). Я приложил все усилия, чтобы прочитать более позднюю статью, но она достаточно математически плотная, и я не совсем уверен, что понимаю разницу между процедурами. Из базового кода в моей статистической программе я вижу, что они действительно разные и что последняя включает в себя величину q, о которой я упоминал в отношении FDR, но также не совсем понимаю.

Есть ли основания предпочесть процедуру Бенджамини и Хохберга (1995 г.), а не процедуру Бенджамини и Екутиели (2001 г.)? У них разные предположения? Каковы практические различия между этими подходами?

Benjamini Y. и Hochberg Y. (1995). Контроль уровня ложных открытий: практичный и мощный подход к многократному тестированию. Журнал Королевского статистического общества, серия B, 57, 289–300.

Benjamini, Y., и Yekutieli, D. (2001). Контроль уровня ложных обнаружений при множественном тестировании в зависимости. Летопись статистики 29, 1165–1188.

Документ 1999 года, упомянутый в комментариях ниже: Yekutieli, D. & Benjamini, Y. (1999). Частота ложных обнаружений на основе повторной выборки, управляющая несколькими процедурами испытаний для сопоставленной статистики испытаний. Журнал статистического планирования и вывода, 82 (1), 171-196.

post-hoc false-discovery-rate

— russellpierce
источник

Я думал, что статья 2001 года устанавливает свойства FDR (1995) в зависимости. Yekutieli and Benjamini (Журнал Статистического Планирования и Вывода, 1999) устанавливает другую процедуру FDR. Есть ли шанс, что вы ищете?

— Джульет

@julieth: Это был мой смысл статьи 2001 года после прочтения одного реферата, но формулы в статье (например, 27 - 30), по-видимому, включают в себя величину, называемую q. Опять же, так же и эта статья 1999 года, которую вы цитируете. Однако я чувствую, что статья 1999 года реализует подход повторной выборки, который явно (из рассмотрения кода) не является тем, что делает моя программа статистики (R; p.adjust) ... но я могу ошибаться.

— Расселпирс

В конце статьи 2001 года цитируется статья 1999 года, в которой говорится: «Наконец, вспомните процедуру, основанную на повторной выборке Yekutieli and Benjamini (1999), которая пытается справиться с вышеуказанной проблемой и в то же время использует информацию о зависимости структура, полученная из выборки. Процедура на основе повторной выборки является более мощной, за счет большей сложности и только приблизительного контроля FDR ». ... так что я думаю, что статья 2001 года предоставила вычислительное решение в закрытой форме, и именно это реализует моя программа статистики.

— Расселпирс

Итак, вы используете p.adjust. Бумага 99 отличается совсем, как вы заметили. Я всегда видел вариант BY в p.adjust и не обращал внимания. Эта статья 2001 года обычно цитируется в связи с доказательством FDR и «положительной регрессионной зависимости». Я никогда не видел в этом цитату из другой оценки, но, возможно, она там. Похоже, мне нужно перечитать это.

— Джульет

Ответы:

Бенджамини и Хохберг (1995) представили уровень ложных открытий. Benjamini и Yekutieli (2001) доказали, что оценка справедлива при некоторых формах зависимости. Зависимость может возникнуть следующим образом. Рассмотрим непрерывную переменную, используемую в t-тесте, и другую переменную, связанную с ней; например, тестирование, если ИМТ отличается в двух группах и окружность талии отличается в этих двух группах. Поскольку эти переменные коррелируют, результирующие значения р также будут коррелироваться. Yekutieli и Benjamini (1999) разработали еще одну процедуру контроля FDR, которая может использоваться при общей зависимости путем повторной выборки нулевого распределения. Поскольку сравнение относится к распределению нулевой перестановки, поскольку общее число истинных положительных значений увеличивается, метод становится более консервативным. Оказывается, что BH 1995 также консервативен, так как число истинных положительных результатов увеличивается. Чтобы улучшить это, Benjamini и Hochberg (2000) представили адаптивную процедуру FDR. Это требовало оценки параметра, нулевой пропорции, который также используется в оценке pFDR Стори. Стори дает сравнения и утверждает, что его метод является более мощным и подчеркивает консервативный характер процедуры 1995 года. Этаж также имеет результаты и моделирование в зависимости.

Все вышеперечисленные тесты действительны в условиях независимости. Вопрос в том, с каким уходом от независимости эти оценки могут быть связаны.

В настоящее время я думаю, что если вы не ожидаете слишком много истинных положительных результатов, процедура BY (1999) хороша, потому что она включает в себя особенности распределения и зависимость. Тем не менее, я не знаю о реализации. Метод Стори был рассчитан на множество истинных позитивов с некоторой зависимостью. BH 1995 предлагает альтернативу частоте ошибок по семейным обстоятельствам, и она все еще консервативна.

Бенджамини, Y и Y Хохберг. Об адаптивном контроле частоты ложных обнаружений при многократном тестировании с независимой статистикой. Журнал образовательной и поведенческой статистики, 2000.

— julieth
источник

Большое спасибо! Не могли бы вы пересмотреть свой вопрос, чтобы уточнить следующие моменты / проблемы: «пересчет нулевого распределения» - это документ 1999 года? Не могли бы вы привести цитату для газеты 2000 года? Вы, кажется, знакомы с p.adjust, действительно ли он реализует процедуру BY? Нужно ли использовать ЧД, когда тесты гипотез не зависят? Что заставляет тесты гипотез считаться зависимыми? - Пожалуйста, дайте мне знать, если какой-либо из этих вопросов выходит за рамки настоящего объема и требует, чтобы был задан новый вопрос.

— Расселпирс

У p.adjust есть опции для обоих (BH и BY). Тем не менее, я думал, что это то же самое, поэтому я что-то пропустил.

— Джулиет

И основной код тоже отличается (я проверял), поэтому они будут давать разные числа.

— Расселпирс

Так что же вы думаете, что p.adjust выполняет с аргументом BY? Я не думаю, что это процедура 1999 года. Основной код - pmin (1, cummin (q * n / i * p [o])) [ro]. BH - это pmin (1, cummin (n / i * p [o])) [ro]. Таким образом, они отличаются только по q, которое является суммой (1 / (1: n)), где n = количество значений. o и ro служат только для помещения значений p в убывающий числовой порядок для функции, а затем выкладывают их обратно в том же порядке, в котором их вводил пользователь.

— russellpierce

Так что, поскольку новые ответы не поступают, я приму этот ответ и обобщу свое понимание. p.adjust может быть неправильно для BY. То, что выполняется, не является передискретизацией. BH, 2000 ввел адаптивную процедуру FDR, и это включает в себя оценку нулевой пропорции, которая может быть q, который появляется в коде BY. Тем временем кажется разумным сделать прямую ссылку на p.adjust, поскольку это отражает фактическую процедуру, используемую при использовании опции «BY», и просто знать, что «BY» может фактически реализовывать Benjamini & Hochberg, 2000.

— Расселпирс

p.adjust не пропускает BY. Ссылка на теорему 1.3 (доказательство в разделе 5 на с.1182) в статье:

Поскольку в этой статье обсуждаются несколько различных настроек, ссылка на страницу справки (на момент написания) для p.adjust () несколько неясна. Этот метод гарантированно контролирует FDR с установленной скоростью при самой общей структуре зависимости. Информационные комментарии к слайдам Кристофера Дженовезе можно найти по адресу: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf. Обратите внимание на комментарий на слайде 37 со ссылкой на метод теоремы 1.3 в статье BY 2001 [method = «BY» с p.adjust ()], который: «К сожалению, это обычно очень консервативный, иногда даже более, чем Bonferroni».

Числовой пример: method='BY' противmethod='BH'

Далее сравнивается method = 'BY' с method = 'BH' с использованием функции p's p.adjust () для значений p из столбца 2 таблицы 2 в статье Бенджамини и Хохберга (2000):

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

$\sum_{i=1}^m (1/i)$ $m$

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

setNames (mult, paste (c ('m =', rep ('', 5)), c (11, 30, 34, 226, 1674, 12365))) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

$m$

— Джон Майндональд
источник