Частично проблема заключается в том, что частичное определение вероятности не позволяет применять нетривиальную вероятность к результату конкретного эксперимента, а только к некоторой фиктивной совокупности экспериментов, из которых этот конкретный эксперимент можно считать образцом. Определение КИ сбивает с толку, поскольку оно является утверждением об этой (обычно) фиктивной совокупности экспериментов, а не о конкретных данных, собранных в данном случае. Таким образом, частью проблемы является одно из определения вероятности: идея истинного значения, лежащая в определенном интервале с вероятностью 95%, не согласуется с частыми рамками.
Другой аспект проблемы заключается в том, что при расчете доверительной вероятности не используется вся информация, содержащаяся в конкретной выборке, которая имеет отношение к ограничению истинного значения статистики. Мой вопрос "Есть ли примеры, когда байесовские достоверные интервалы явно уступают частым доверительным интервалам"обсуждается статья Эдвина Джейнса, в которой есть несколько действительно хороших примеров, которые действительно подчеркивают разницу между доверительными интервалами и достоверными интервалами. Одним из примеров, который особенно важен для этого обсуждения, является Пример 5, в котором обсуждается разница между достоверным и доверительным интервалами для оценки параметра усеченного экспоненциального распределения (для проблемы в промышленном контроле качества). В приведенном им примере в образце достаточно информации, чтобы быть уверенным, что истинное значение параметра нигде не лежит в правильно построенном 90% доверительном интервале!
Некоторым это может показаться шокирующим, но причина этого результата в том, что доверительные интервалы и достоверные интервалы являются ответами на два разных вопроса из двух разных интерпретаций вероятности.
Доверительный интервал является ответом на запрос: «Дайте мне интервал, который будет заключать в скобки истинное значение параметра в % случаев эксперимента, который повторяется большое количество раз». Достоверный интервал является ответом на запрос: «Дайте мне интервал, который заключает в скобки истинное значение с вероятностью для конкретной выборки, которую я действительно наблюдал». Чтобы иметь возможность ответить на последний запрос, мы должны сначала принять либо ) новая концепция процесса генерирования данных или (б) другая концепция определения самой вероятности. р100pp
Основная причина того, что любой конкретный 95% доверительный интервал не подразумевает 95% вероятности удержания среднего значения, заключается в том, что доверительный интервал является ответом на другой вопрос, поэтому он является правильным только в том случае, если ответ на эти два вопроса имеют одинаковое численное решение.
Короче говоря, достоверные и доверительные интервалы отвечают на разные вопросы с разных точек зрения; оба полезны, но вам нужно выбрать правильный интервал для вопроса, который вы действительно хотите задать. Если вы хотите интервал, который допускает интерпретацию 95% (апостериорной) вероятности содержания истинного значения, то выберите вероятный интервал (а вместе с ним и сопутствующую концептуализацию вероятности), а не доверительный интервал. То, что вы не должны делать, это принять другое определение вероятности в интерпретации, чем то, которое используется в анализе.
Спасибо @cardinal за его уточнения!
Вот конкретный пример из превосходной книги Дэвида Макая «Теория информации, логический вывод и алгоритмы обучения» (стр. 464):
Пусть интересующим параметром будет а данные - пара точек и нарисованная независимо от следующего распределения:д х 1 х 2θDx1x2
p(x|θ)=⎧⎩⎨⎪⎪1/21/20x=θ,x=θ+1,otherwise
Если равно , то мы ожидаем увидеть наборы данных , , и с равной вероятностью . Рассмотрим доверительный интервал39 ( 39 , 39 ) ( 39 , 40 ) ( 40 , 39 ) ( 40 , 40 ) 1 / 4θ39(39,39)(39,40)(40,39)(40,40)1/4
[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)] .
Очевидно, что это действительный 75% доверительный интервал, потому что если вы повторно выбираете данные, , много раз, тогда построенный таким образом доверительный интервал будет содержать истинное значение 75% времени.D=(x1,x2)
Теперь рассмотрим данные . В этом случае частый 75% доверительный интервал будет . Однако, если предположить, что модель процесса генерации верна, может быть 28 или 29 в этом случае, и у нас нет оснований предполагать, что 29 более вероятно, чем 28, поэтому апостериорная вероятность равна . Таким образом, в этом случае частый доверительный интервал явно не является вероятным интервалом в 75%, поскольку существует только 50% вероятность того, что он содержит истинное значение , учитывая то , что мы можем сделать вывод о из этого конкретного образца .[ 29 , 29 ] θ р ( θ = 28 | D ) = р ( θ = 29 | D ) = 1 / 2 & thetas ; θD=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2θθ
Да, это надуманный пример, но если бы доверительные интервалы и вероятные интервалы не отличались, то они все равно были бы идентичны в надуманных примерах.
Обратите внимание, что ключевое отличие состоит в том, что доверительный интервал - это утверждение о том, что произойдет, если вы повторили эксперимент много раз, а достоверный интервал - это утверждение о том, что можно сделать из этого конкретного образца.