Почему байесовские методы не требуют множественных исправлений тестирования?

22

Эндрю Гельман (Andrew Gelman) написал обширную статью о том, почему байесовское тестирование AB не требует множественной коррекции гипотез: почему мы (обычно) не должны беспокоиться о множественных сравнениях , 2012.

Я не совсем понимаю: почему байесовские методы не требуют множественных исправлений тестирования?

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

Насколько я понимаю, байесовский подход, показанный выше, учитывает общее базовое распределение по всей гипотезе (в отличие от частой коррекции Бонферрони). Правильно ли мои рассуждения?

hypothesis-testing bayesian multiple-comparisons

— амеба говорит восстановить монику
источник

Я бы последовал примеру Эндрю Гельмана: почему мы (обычно) не должны беспокоиться о множественных сравнениях , 2012. См. Также в его блоге .

— Патрик Макканн

5

Хотя ссылки Патрика очень полезны, было бы замечательно увидеть более самостоятельный ответ, ориентированный на «умеренно статистически грамотного научного рецензента».

— предположения

14

Один из странных способов ответить на этот вопрос состоит в том, чтобы отметить, что байесовский метод не дает никакого способа сделать это, потому что байесовские методы согласуются с принятыми правилами доказывания, а часто используемые методы часто расходятся с ними. Примеры:

По статистике частых случаев, сравнение лечения А и В должно оштрафовать за сравнение лечения С и D из-за семейных ошибок типа I; с байесовским сравнением AB само по себе.
При последовательном частом тестировании обычно требуются штрафы за многократный просмотр данных. В групповой последовательной настройке раннее сравнение для A против B должно быть оштрафовано за более позднее сравнение, которое еще не было сделано, и более позднее сравнение должно быть оштрафовано за более раннее сравнение, даже если более раннее сравнение не изменило ход изучение.

Проблема связана с частым обращением потока времени и информации, заставляющим часто думать о том, что могло произойти, а не о том, что произошло . Напротив, байесовские оценки привязывают всю оценку к предшествующему распределению, которое калибрует доказательства. Например, предварительное распределение для разницы AB калибрует все будущие оценки AB и не должно учитывать CD.

При последовательном тестировании возникает большая путаница в отношении того, как корректировать точечные оценки, когда эксперимент прекращается на ранней стадии с использованием частых выводов. В байесовском мире предыдущий «оттягивает» любые точечные оценки, а обновленное апостериорное распределение применяется к выводу в любое время и не требует сложных пространственных соображений для выборки.

— Фрэнк Харрелл
источник

4

Я не очень понимаю этот аргумент. Если мы проводим 1000 различных сравнений с обычным подходом к частым исследованиям, то, конечно, мы должны ожидать около 50 значимых с p <0,05 эффектами даже при нулевом. Отсюда и исправления. Если вместо этого мы используем байесовскую оценку / тестирование, имея некоторый априор (около 0?) Для всех сравнений, то да, априор сожмет исходные значения до нуля, но у нас все равно будут случайно изменяющиеся исходные данные и / или байесовские факторы и, вероятно, будут некоторые случаи из 1000, которые будут выглядеть как «существенные» эффекты, даже когда истинные эффекты все равны нулю.

— говорит амеба: восстанови Монику

1

2^{1000}

$2^{1000}$

2^{1000} - 1

$2^{1000}-1$

1

Извините, @probabilityislogic, я не уверен, что понял вашу точку зрения. Достаточно справедливо в отношении "всех альтернатив", но что происходит на практике? Как я уже сказал, мы оцениваем 1000 групповых различий (например); у нас есть априорная разница в группе; мы получаем 1000 постеров, 95% вероятных интервалов или что угодно. Затем мы посмотрим на каждый вероятный интервал, чтобы проверить, достаточно ли он далеко от нуля, чтобы быть «значимым / существенным» эффектом. Если мы сделаем это 1000 раз, у нас, вероятно, будут некоторые «ложные срабатывания» в том смысле, что некоторые эффекты будут казаться большими, даже если все 1000 эффектов фактически равны нулю. Нет?

— говорит амеба: восстанови Монику

1

1000

$1000$

1

@probabilityislogic: Ну, я абсолютно за многоуровневые модели, хотя я не вижу их обязательно как инструмент Байеса - смешанные модели и ANOVA со случайными эффектами обычно используются наряду с t-тестами и тому подобным ...

— Амеба говорит Восстановить Монику

6

Этот тип иерархической модели действительно сокращает оценки и уменьшает количество ложных утверждений в разумных пределах для небольшого или среднего числа гипотез. Гарантирует ли это какой-то определенный уровень ошибок типа I? Нет.

Это конкретное предложение Гельмана (который признает проблему, рассматривая слишком много разных вещей и затем слишком легко ошибочно заключая, что вы видите что-то для некоторых из них - фактически одну из его любимых тем в своем блоге), отличается от крайней альтернативы точка зрения, которая гласит, что байесовские методы не должны учитывать множественность, потому что все, что имеет значение, это ваша вероятность (и ваш предыдущий).

— Бьерн
источник

1

(+1) Насколько мне известно, ожидание в нескольких случаях (например, безразмерное с сопоставлением ранее) байесовский вывод не дает никакого контроля над частотой ошибок типа 1. Таким образом, исправление множественного тестирования в байесовском параметре не может рассматриваться IHMO как исправление для ошибки типа 1.

— peuhp

3

+1. В одной из ужасных ироний жизни я написал статью «Почему нам (обычно) не приходится беспокоиться о множественных сравнениях», но сейчас я провожу много времени, беспокоясь о множественных сравнениях (Гельман),

— говорит амеба Reinstate Monica

6

Очень интересный вопрос, вот мое мнение.

Все дело в кодировании информации, затем включите байесовский кривошип. Это кажется слишком хорошим, чтобы быть правдой - но оба они сложнее, чем кажутся.

Я начинаю с того, чтобы задать вопрос

Какая информация используется, когда мы беспокоимся о множественных сравнениях?

Я могу подумать о некоторых - во-первых, это «выемка данных» - тестируйте «все», пока не получите достаточное количество пропусков / неудач (я думаю, что почти каждый обученный специалист по статистике столкнется с этой проблемой). У вас также есть менее зловещий, но по сути тот же «у меня так много тестов для запуска - конечно, все не может быть правильно».

Подумав об этом, я замечаю одну вещь: вы не склонны много слышать о конкретной гипотезе или конкретных сравнениях. Все дело в «сборе» - это заставляет меня задуматься о взаимозаменяемости - сравниваемые гипотезы в некотором роде «похожи» друг на друга. И как вы кодируете взаимозаменяемость в байесовский анализ? - гиперприоры, смешанные модели, случайные эффекты и т. д. !!!

Но взаимозаменяемость только дает вам часть пути туда. Все ли можно обменять? Или у вас есть "разреженность" - например, только несколько ненулевых коэффициентов регрессии с большим количеством кандидатов. Смешанные модели и нормально распределенные случайные эффекты здесь не работают. Они «застревают» между шумом подавления и оставлением сигналов нетронутыми (например, в вашем примере оставьте равными «истинные» параметры locationB и locationC, и установите параметр locationA «true» произвольно большим или маленьким, и наблюдайте, как стандартная линейная смешанная модель дает сбой.) , Но это может быть исправлено - например, с помощью приоров «шип и плита» или «подковы».

Так что на самом деле речь идет о том, чтобы описать, о какой гипотезе вы говорите, и о том, как много известных особенностей отразилось в предыдущих и вероятных. Подход Эндрю Гельмана - это просто способ неявного управления широким классом множественных сравнений. Точно так же как наименьшие квадраты и нормальные распределения имеют тенденцию работать хорошо в большинстве случаев (но не во всех).

С точки зрения того, как это происходит, вы можете думать о человеке, который рассуждает следующим образом - группа A и группа B могут иметь одинаковое среднее значение - я посмотрел на данные, а средства «близки» - следовательно, чтобы получить лучшую оценку для обоих я должен объединить данные, так как изначально я думал, что они имеют одинаковое среднее значение. - Если они не совпадают, данные свидетельствуют о том, что они «близки», поэтому объединение «немного» не причинит мне большого вреда, если моя гипотеза окажется неверной (а-ля, все модели ошибочны, некоторые полезны)

Обратите внимание, что все вышеперечисленное зависит от первоначальной предпосылки «они могут быть одинаковыми». Уберите это, и нет никаких оснований для объединения. Вы также можете увидеть «нормальное распределение» мышления о тестах. «Вероятнее всего, ноль», «если не ноль, то близким к нулю является следующий наиболее вероятный», «экстремальные значения маловероятны». Рассмотрим эту альтернативу:

Значения группы A и группы B могут быть одинаковыми, но они также могут существенно отличаться

Тогда аргумент о объединении "немного" - очень плохая идея. Вам лучше выбрать общий или нулевой пул. Гораздо больше похоже на Коши, шип и сляб, тип ситуации (много массы около нуля и много массы для экстремальных значений)

Целые множественные сравнения не должны рассматриваться, потому что байесовский подход включает в себя информацию, которая заставляет нас беспокоиться о предыдущих и / или вероятности . В некотором смысле это больше напоминание, чтобы правильно подумать о том, какая информация доступна для вас, и убедиться, что вы включили ее в свой анализ.

— probabilityislogic
источник

2

l_{1}

$l_1$

\exp (- | x |)

$\exp(-|x|)$

@StasK - l1 будет работать лучше, но в лог-вогнутой форме будет бороться с редкими ненулевыми значениями. Те, что я упомянул, все выпуклые. Близкий вариант к l1 - это обобщенное двойное парето - получение с использованием смеси параметров шкалы Лапласа (аналогично адаптивному лассо в ML)

— вероятностный

5

Во-первых, насколько я понимаю модель, которую вы представили, я думаю, что она немного отличается от предложения Гельмана, что больше похоже на:

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

На практике, добавляя этот commonLocationпараметр, выводы над параметрами 3 распределений (в данном случае местоположения 1, 2 и 3) больше не зависят друг от друга. Более того, commonLocationимеет тенденцию к уменьшению ожидаемых значений параметров в сторону центрального (обычно оценочного) значения. В определенном смысле это работает как регуляризация по всем выводам, что делает необходимость исправления для множественной коррекции ненужной (так как на практике мы выполняем одну единственную многомерную оценку, основанную на взаимодействии между каждым из них посредством использования модели).

Как указано в другом ответе, эта поправка не предлагает какого-либо контроля над ошибкой типа I, но в большинстве случаев байесовский метод не предлагает никакого такого контроля даже при единой шкале логических выводов, и поправка для множественного сравнения должна рассматриваться по-другому в байесовском методе. установка.

— peuhp
источник