контекст
Это несколько похоже на этот вопрос , но я не думаю, что это точная копия.
Когда вы смотрите, как инструкции о том, как выполнить тест гипотезы начальной загрузки, обычно утверждается, что можно использовать эмпирическое распределение для доверительных интервалов, но что вам нужно правильно запустить загрузку из распределения при нулевой гипотезе, чтобы получить p- значение. В качестве примера см. Принятый ответ на этот вопрос . Похоже, что общий поиск в интернете приводит к подобным ответам.
Причина, по которой не используется значение p, основанное на эмпирическом распределении, заключается в том, что в большинстве случаев у нас нет трансляционной инвариантности.
пример
Позвольте мне привести короткий пример. У нас есть монета, и мы хотим провести односторонний тест, чтобы увидеть, если частота головок больше 0,5
Мы проводим испытаний и получаем голов. Истинное значение p для этого теста будет равно .
С другой стороны, если мы загрузим наши 14 из 20 голов, мы эффективно произведем выборку из биномиального распределения с и . Сдвигая это распределение путем вычитания 0,2, мы получим едва ли существенный результат при тестировании нашего наблюдаемого значения 0,7 против полученного эмпирического распределения.
В этом случае расхождение очень мало, но оно увеличивается, когда показатель успешности, с которым мы тестируем, приближается к 1.
Вопрос
Теперь позвольте мне перейти к реальной точке моего вопроса: тот же недостаток имеет место и для доверительных интервалов. Фактически, если доверительный интервал имеет заявленный уровень достоверности тогда доверительный интервал, не содержащий параметр в рамках нулевой гипотезы, эквивалентен отклонению нулевой гипотезы на уровне значимости .
Почему доверительные интервалы, основанные на эмпирическом распределении, широко приняты, а значение p - нет?
Есть ли более глубокая причина или люди просто не настолько консервативны с доверительными интервалами?
В этом ответе Питер Далгаард дает ответ, который, кажется, согласен с моим аргументом. Он говорит:
Нет ничего особенно плохого в этой линии рассуждений, или, по крайней мере, не намного хуже, чем расчет КИ.
Откуда (много) приходит? Это подразумевает, что генерирование p-значений таким способом немного хуже, но не раскрывает этот момент.
Последние мысли
Также в «Введении к начальной загрузке » Эфрона и Тибширани они отводят много места доверительным интервалам, но не р-значениям, если они не генерируются при правильном распределении нулевой гипотезы, за исключением одной одноразовой строки об общей эквивалентности доверительные интервалы и значения p в главе о тестировании перестановок.
Давайте также вернемся к первому вопросу, который я связал. Я согласен с ответом Майкла Черника, но он также утверждает, что и доверительные интервалы, и значения p, основанные на эмпирическом распределении начальной загрузки, одинаково ненадежны в некоторых сценариях. Это не объясняет, почему многие люди говорят вам, что интервалы в порядке, а значения p - нет.