Я читал 2008 документ Джеффа Камминг репликации и Интервалы: значения предсказывать будущее лишь смутно, но доверительные интервалы делают намного лучше р р[~ 200 ссылок в Google Scholar] - и смущает одно из центральных требований. Это одна из серии статей, где Камминг спорит с и поддерживает доверительные интервалы; Мой вопрос, однако, не об этой дискуссии, а касается только одного конкретного утверждения о .
Позвольте мне процитировать из резюме:
В этой статье показано, что если в результате первоначального эксперимента двухстороннее , вероятность того, что одностороннее значение в репликации упадет в интервале , составляет , вероятность того, что , и полностью вероятность того, что . Примечательно, что интервал, называемый интервалом настолько широк, насколько велик размер выборки.
Камминг утверждает, что этот « интервал» и фактически все распределение значений, которые можно получить при репликации исходного эксперимента (с тем же фиксированным размером выборки), зависят только от исходного -значения и не зависит от истинного размера эффекта, мощности, размера выборки или чего-либо еще:p p o b t
[...] распределение вероятности может быть получено без знания или принятия значения для (или степени). [...] Мы не предполагаем каких-либо предварительных знаний о , и мы используем только информацию, которую [наблюдаемая разница между группами] дает о в качестве основы для вычисления для данного распределения и интервалов.
Меня это смущает, потому что мне кажется, что распределение значений сильно зависит от мощности, тогда как сам по себе исходный не дает никакой информации об этом. Может случиться так, что истинный размер эффекта будет и тогда распределение будет равномерным; или, может быть, истинный размер эффекта огромен, и тогда нам следует ожидать в основном очень маленьких значений. Конечно, можно начать с допущения о некотором априорном возможном размере эффекта и интегрировать его, но Камминг, похоже, утверждает, что это не то, что он делает.p o b t δ = 0 p
Вопрос: что именно здесь происходит?
Обратите внимание, что эта тема связана с этим вопросом: какая доля повторных экспериментов будет иметь величину эффекта в пределах 95% доверительного интервала первого эксперимента? с отличным ответом @whuber. У Камминга есть статья на эту тему: Камминг и Мейлардет, 2006, Доверительные интервалы и тиражирование: куда пойдет следующий смысл? - но это ясно и беспроблемно.
Я также отмечаю, что утверждение Камминга повторяется несколько раз в статье 2015 года Nature Methods . Непостоянное значение приводит к невоспроизводимым результатам, с которыми некоторые из вас могли столкнуться (у него уже есть ~ 100 ссылок в Google Scholar):
[...] будет существенное изменение в значении повторных экспериментов. На самом деле эксперименты редко повторяются; мы не знаем , как отличаются следующим может быть. Но вполне вероятно, что это может быть совсем по-другому. Например, независимо от статистической мощности эксперимента, если один Репликация возвращает значения , есть вероятность того, что повторный эксперимент будет возвращать значения в диапазоне от и (и изменений [так] что будет еще больше).P P 0,05 80 % P 0 0,44 20 % P
(Заметьте, кстати, как, независимо от того, является ли утверждение Камминга правильным или нет, газета Nature Methods цитирует его неточно: согласно Каммингу, вероятность составляет всего выше . И да, газета говорит «20% чан» г е ". Пффф.)0,44