Очень интересный вопрос, вот мое мнение.
Все дело в кодировании информации, затем включите байесовский кривошип. Это кажется слишком хорошим, чтобы быть правдой - но оба они сложнее, чем кажутся.
Я начинаю с того, чтобы задать вопрос
Какая информация используется, когда мы беспокоимся о множественных сравнениях?
Я могу подумать о некоторых - во-первых, это «выемка данных» - тестируйте «все», пока не получите достаточное количество пропусков / неудач (я думаю, что почти каждый обученный специалист по статистике столкнется с этой проблемой). У вас также есть менее зловещий, но по сути тот же «у меня так много тестов для запуска - конечно, все не может быть правильно».
Подумав об этом, я замечаю одну вещь: вы не склонны много слышать о конкретной гипотезе или конкретных сравнениях. Все дело в «сборе» - это заставляет меня задуматься о взаимозаменяемости - сравниваемые гипотезы в некотором роде «похожи» друг на друга. И как вы кодируете взаимозаменяемость в байесовский анализ? - гиперприоры, смешанные модели, случайные эффекты и т. д. !!!
Но взаимозаменяемость только дает вам часть пути туда. Все ли можно обменять? Или у вас есть "разреженность" - например, только несколько ненулевых коэффициентов регрессии с большим количеством кандидатов. Смешанные модели и нормально распределенные случайные эффекты здесь не работают. Они «застревают» между шумом подавления и оставлением сигналов нетронутыми (например, в вашем примере оставьте равными «истинные» параметры locationB и locationC, и установите параметр locationA «true» произвольно большим или маленьким, и наблюдайте, как стандартная линейная смешанная модель дает сбой.) , Но это может быть исправлено - например, с помощью приоров «шип и плита» или «подковы».
Так что на самом деле речь идет о том, чтобы описать, о какой гипотезе вы говорите, и о том, как много известных особенностей отразилось в предыдущих и вероятных. Подход Эндрю Гельмана - это просто способ неявного управления широким классом множественных сравнений. Точно так же как наименьшие квадраты и нормальные распределения имеют тенденцию работать хорошо в большинстве случаев (но не во всех).
С точки зрения того, как это происходит, вы можете думать о человеке, который рассуждает следующим образом - группа A и группа B могут иметь одинаковое среднее значение - я посмотрел на данные, а средства «близки» - следовательно, чтобы получить лучшую оценку для обоих я должен объединить данные, так как изначально я думал, что они имеют одинаковое среднее значение. - Если они не совпадают, данные свидетельствуют о том, что они «близки», поэтому объединение «немного» не причинит мне большого вреда, если моя гипотеза окажется неверной (а-ля, все модели ошибочны, некоторые полезны)
Обратите внимание, что все вышеперечисленное зависит от первоначальной предпосылки «они могут быть одинаковыми». Уберите это, и нет никаких оснований для объединения. Вы также можете увидеть «нормальное распределение» мышления о тестах. «Вероятнее всего, ноль», «если не ноль, то близким к нулю является следующий наиболее вероятный», «экстремальные значения маловероятны». Рассмотрим эту альтернативу:
- Значения группы A и группы B могут быть одинаковыми, но они также могут существенно отличаться
Тогда аргумент о объединении "немного" - очень плохая идея. Вам лучше выбрать общий или нулевой пул. Гораздо больше похоже на Коши, шип и сляб, тип ситуации (много массы около нуля и много массы для экстремальных значений)
Целые множественные сравнения не должны рассматриваться, потому что байесовский подход включает в себя информацию, которая заставляет нас беспокоиться о предыдущих и / или вероятности . В некотором смысле это больше напоминание, чтобы правильно подумать о том, какая информация доступна для вас, и убедиться, что вы включили ее в свой анализ.