Является ли вычисление «фактической вероятности покрытия» таким же, как вычисление «вероятного интервала»?


10

Я читал учебник по статистике начального уровня. В главе, посвященной оценке максимального правдоподобия доли успеха в данных с биномиальным распределением, он дал формулу для расчета доверительного интервала, а затем упомянул небрежно

Рассмотрим его фактическую вероятность покрытия, то есть вероятность того, что метод создает интервал, который фиксирует истинное значение параметра. Это может быть немного меньше, чем номинальное значение.

И далее предлагается создать альтернативный «доверительный интервал», который предположительно содержит фактическую вероятность покрытия.

Я впервые столкнулся с идеей номинальной и фактической вероятности покрытия. Пробираясь сквозь старые вопросы здесь, я думаю, что у меня есть понимание: есть два разных понятия, которые мы называем вероятностью, во-первых, насколько вероятно, что еще не произошедшее событие даст определенный результат, и второе насколько вероятно, что предположение агента-наблюдателя о результате уже произошедшего события верно. Также казалось, что доверительные интервалы измеряют только первый тип вероятности, а то, что называется «достоверные интервалы», измеряет второй тип вероятности. Я кратко предположил, что доверительные интервалы - это те, которые рассчитывают «номинальную вероятность покрытия», а вероятные интервалы - это те, которые охватывают «фактическую вероятность покрытия».

Но, возможно, я неправильно истолковал книгу (не совсем понятно, предназначены ли различные методы расчета для доверительного интервала и вероятного интервала или для двух различных типов доверительных интервалов) или для других источников, к которым я приходил мое текущее понимание. Особенно комментарий, который я получил по другому вопросу,

Доверительные интервалы для частых, достоверные для байесовских

заставил меня усомниться в моих выводах, так как книга не описывала байесовский метод в этой главе.

Поэтому, пожалуйста, уточните, правильно ли мое понимание или я допустил логическую ошибку в пути.


Номинальная вероятность покрытия - это «целевая» вероятность покрытия: та, которую мы пытаемся достичь, когда выводим метод, обеспечивающий доверительный интервал. Фактическое покрытие - это «истинное» покрытие. Некоторые люди говорят, что доверительный интервал является точным, когда фактический охват равен номинальному охвату. Скотчи и Unwisdom отметили, что доверительный интервал никогда не бывает точным для дискретных данных. Другой пример - когда мы используем асимптотический доверительный интервал: он точен только тогда, когда . Я полностью понимаю вашу идею, потому что «фактическое» также является синонимом «настоящего». n
Стефан Лоран

Ответы:


5

Как правило, фактическая вероятность покрытия никогда не будет равна номинальной вероятности, когда вы работаете с дискретным распределением.

Доверительный интервал определяется как функция данных. Если вы работаете с биномиальным распределением, существует только конечное число возможных результатов ( точнее ), поэтому существует только конечное число возможных доверительных интервалов. Поскольку параметр является непрерывным, довольно легко увидеть, что вероятность покрытия (которая является функцией от ) не может быть лучше, чем приблизительно 95% (или что-то еще).p pn+1pp

Обычно верно, что методы, основанные на CLT, будут иметь вероятности покрытия ниже номинального значения, но другие методы могут на самом деле быть более консервативными.


1
Вот полезное формальное утверждение определения: Учитывая выборочное пространство и неизвестный параметр , процедура доверия состоит из пары функций такой, чтоЛевая часть этого выражения - это (обратите внимание, что это зависит от θ), а RHS - это номинальный уровень достоверности . Если инфимум (более ) LHS равен RHS, то процедура является точной . thetas ; 1 - α L U : Ом R P [ { ω Q , | [ L ( ω ) , U ( ω ) ] θ } ]1 - α . вероятность покрытия ΩΩ,F,Pθ1α LU:ΩR
P[{ωΩ|[L(ω),U(ω)]θ}]1α.
coverage probabilityΩ
Мудрость

8

Это не имеет ничего общего с байесовскими достоверными интервалами против частых доверительных интервалов. 95% (скажем) доверительный интервал определяется как обеспечивающий охват не менее 95% независимо от истинного значения параметра . Таким образом, когда номинальное покрытие составляет 95%, фактическое покрытие может составлять 97% при , 96,5% при , но при отсутствии значения оно составляет менее 95%. Проблема (то есть несоответствие между номинальным и фактическим покрытием) возникает с дискретными распределениями, такими как биномиальное.π = π 1 π = π 2 πππ=π1π=π2π

В качестве иллюстрации рассмотрим наблюдение за успехами из биномиальных испытаний с неизвестной вероятностью успеха : В первом столбце показаны возможные наблюдаемые значения . Вторая показывает точное верхнее доверительное ограничениеxnπ

xπUPr(X=x|π=0.7)I(πU0.7)00.39303780.000729010.58180340.010206020.72866160.059535130.84683890.185220140.93715010.324135150.99148760.302526161.00000000.1176491
x 95%π = 0,7 x 1 0,989065 ππU=π:[Pr(X>x|π)=0.95]что вы будете рассчитывать в каждом конкретном случае. Теперь предположим, что : в третьем столбце показана вероятность каждого наблюдаемого значения при этом предположении; четвертый показывает, для каких случаев вычисленный доверительный интервал покрывает истинное значение параметра, помечая их как . Если вы сложите вероятности для случаев, когда доверительный интервал действительно покрывает истинное значение, вы получите фактическое покрытие . Для разных истинных значений фактическое покрытие будет другим:π=0.7x10.989065π

охваты

Номинальное покрытие достигается только тогда, когда истинные значения параметров совпадают с достижимыми верхними границами.

[Я просто перечитал ваш вопрос и заметил, что автор говорит, что фактическая вероятность может быть меньше, чем номинальная вероятность покрытия. Поэтому я считаю, что они говорят о приблизительном методе расчета доверительного интервала, хотя то, что я сказал выше, все еще продолжается. На графике можно предложить сообщить о среднем уровне достоверности около но - усредняя значения неизвестного параметра?]98%

† Точно в том смысле, что фактическое покрытие никогда не меньше номинального покрытия для любого значения , и равно ему для некоторых значений - @ Unwisdom's sense, а не @ Stephane's.πππ

‡ Интервалы с верхними и нижними границами, конечно, чаще используются; но немного сложнее объяснить, и есть только один точный интервал для рассмотрения только с верхней границей. (См. Blaker (2000), «Кривые достоверности и улучшенные точные доверительные интервалы для дискретных распределений», Канадский журнал статистики , 28 , 4 и ссылки.)


Спасибо, что ответили. Теперь, когда я знаю, какова реальная вероятность покрытия, у вас есть предположение, почему пользователя в этом вопросе отправили на вопросы, которые объясняют разницу между вероятными и доверительными интервалами? Именно здесь у меня возникла мысль, что фактическое / номинальное покрытие проблемы. двойственность связана. stats.stackexchange.com/questions/63922/…
rumtscho

Возможно, потому что ОП дает только ссылку на то, где он видел термины «номинальный» и «фактический» (вместо того, чтобы резюмировать или цитировать его в вопросе, как вы это делали), а затем посвящает остальную часть своего вопроса своей неверной интерпретации их использовать в этом контексте.
Scortchi - Восстановить Монику

2

Я думаю, что разница на самом деле заключается в использовании приближений, сделанных при расчете доверительных интервалов. Например, если мы используем довольно стандартный CI

estimate±1.96×estimated standard error

Мы можем назвать это «доверительным интервалом 95%». Однако, как правило, здесь делается несколько приближений. Если мы не сделаем аппроксимации, то мы можем рассчитать фактическое покрытие. Типичная ситуация при оценке стандартной ошибки. Тогда интервалы слишком узки, чтобы получить истинное значение с вероятностью 95%. Они могут получить только истинное значение, скажем, с вероятностью 85%. Вероятность «фактического покрытия» может быть рассчитана с использованием имитационного моделирования Монте-Карло (например, сгенерировать выборочных наборов данных, используя выбранное истинное значение, затем рассчитать 95% -й доверительный интервал для каждого и найти, что действительно содержит истинное значение).+8501000850

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.