Почему 95% доверительный интервал (КИ) не подразумевает 95% вероятности удержания среднего значения?


228

Похоже, что из-за различных связанных с этим вопросов существует консенсус, что «95%» часть того, что мы называем «95% доверительный интервал», относится к тому факту, что если бы мы точно повторяли наши процедуры выборки и вычисления CI много раз 95% рассчитанных таким образом КИ будут содержать среднее значение для населения. Также кажется, что консенсус в том, что это определение непозвольте одному из 95% -ного КИ сделать вывод, что есть 95% -ная вероятность того, что среднее значение находится где-то в пределах КИ. Тем не менее, я не понимаю, как первое не подразумевает второго, поскольку, предполагая, что многие КИ, 95% из которых содержат совокупное значение, не должно быть нашей неопределенности (в отношении того, содержит ли наш фактически вычисленный КИ население означает или нет) вынуждают нас использовать базовую норму предполагаемых случаев (95%) в качестве нашей оценки вероятности того, что в нашем фактическом случае содержится ДИ?

Я видел посты, спорящие по типу «фактически вычисленный КИ либо содержит среднее значение популяции, либо нет, поэтому его вероятность равна 1 или 0», но это, кажется, подразумевает странное определение вероятности, которое зависит в неизвестных штатах (то есть друг подбрасывает честную монету, скрывает результат, и я не могу сказать, что есть вероятность 50%, что у него голова).

Конечно, я ошибаюсь, но я не вижу, где моя логика пошла не так ...


4
Под «случайностью» вы подразумеваете «вероятность» в техническом смысле часто или в байесовском смысле субъективной достоверности? В частом смысле вероятности есть только события случайных экспериментов. Анализ трех заданных (фиксированных) чисел (истинное среднее, рассчитанные границы CI) для определения их порядка (истинное среднее, содержащееся в CI?) - это не случайный эксперимент. Это также, почему вероятностная часть «фактически вычисленного КИ либо содержит среднее значение популяции, либо нет, поэтому ее вероятность равна 1 или 0» также неверна. Частотная вероятностная модель просто не применима в этом случае.
Каракал

11
Это зависит от того, как вы относитесь к теоретическому значению. Если это случайная величина, то можно сказать, что она попадает в некоторый интервал. Если оно постоянно, вы не можете. Это самое простое объяснение, которое закрыло этот вопрос лично для меня.
mpiktas

2
Я, кстати, натолкнулся на эту беседу от Таддеуса Тарпи: все модели правы ... большинство бесполезны . Он обсуждал вопрос о вероятности того, что 95% доверительный интервал содержит (стр. 81 и далее)? μ
ЧЛ

3
@Nesp: Я не думаю, что есть какая-либо проблема с утверждением «Вероятность того, что это либо ноль, либо единица» в связи с (апостериорной) вероятностью того, что КИ содержит (фиксированный) параметр. (Это даже не полагается на частое толкование вероятности!). Это также не полагается на "неизвестные государства". Такое утверждение относится именно к ситуации, в которой человеку вручают КИ на основе конкретной выборки. Это простое математическое упражнение, чтобы показать, что любая такая вероятность тривиальна, т. Е. Принимает значения в . {0,1}
кардинал

3
@MikeLawrence Спустя три года вы довольны определением 95% -ного доверительного интервала следующим образом: «если бы мы неоднократно брали образцы из популяции и вычисляли 95% -ный доверительный интервал после каждой выборки, 95% нашего доверительного интервала содержали бы среднее значение ». Как и вы в 2012 году, я изо всех сил пытаюсь понять, как это не означает, что 95% доверительный интервал с вероятностью 95% содержит среднее значение. Мне было бы интересно узнать, как продвигается ваше понимание доверительного интервала с тех пор, как вы задали этот вопрос.
Лучано

Ответы:


107

Частично проблема заключается в том, что частичное определение вероятности не позволяет применять нетривиальную вероятность к результату конкретного эксперимента, а только к некоторой фиктивной совокупности экспериментов, из которых этот конкретный эксперимент можно считать образцом. Определение КИ сбивает с толку, поскольку оно является утверждением об этой (обычно) фиктивной совокупности экспериментов, а не о конкретных данных, собранных в данном случае. Таким образом, частью проблемы является одно из определения вероятности: идея истинного значения, лежащая в определенном интервале с вероятностью 95%, не согласуется с частыми рамками.

Другой аспект проблемы заключается в том, что при расчете доверительной вероятности не используется вся информация, содержащаяся в конкретной выборке, которая имеет отношение к ограничению истинного значения статистики. Мой вопрос "Есть ли примеры, когда байесовские достоверные интервалы явно уступают частым доверительным интервалам"обсуждается статья Эдвина Джейнса, в которой есть несколько действительно хороших примеров, которые действительно подчеркивают разницу между доверительными интервалами и достоверными интервалами. Одним из примеров, который особенно важен для этого обсуждения, является Пример 5, в котором обсуждается разница между достоверным и доверительным интервалами для оценки параметра усеченного экспоненциального распределения (для проблемы в промышленном контроле качества). В приведенном им примере в образце достаточно информации, чтобы быть уверенным, что истинное значение параметра нигде не лежит в правильно построенном 90% доверительном интервале!

Некоторым это может показаться шокирующим, но причина этого результата в том, что доверительные интервалы и достоверные интервалы являются ответами на два разных вопроса из двух разных интерпретаций вероятности.

Доверительный интервал является ответом на запрос: «Дайте мне интервал, который будет заключать в скобки истинное значение параметра в % случаев эксперимента, который повторяется большое количество раз». Достоверный интервал является ответом на запрос: «Дайте мне интервал, который заключает в скобки истинное значение с вероятностью для конкретной выборки, которую я действительно наблюдал». Чтобы иметь возможность ответить на последний запрос, мы должны сначала принять либо ) новая концепция процесса генерирования данных или (б) другая концепция определения самой вероятности. р100pp

Основная причина того, что любой конкретный 95% доверительный интервал не подразумевает 95% вероятности удержания среднего значения, заключается в том, что доверительный интервал является ответом на другой вопрос, поэтому он является правильным только в том случае, если ответ на эти два вопроса имеют одинаковое численное решение.

Короче говоря, достоверные и доверительные интервалы отвечают на разные вопросы с разных точек зрения; оба полезны, но вам нужно выбрать правильный интервал для вопроса, который вы действительно хотите задать. Если вы хотите интервал, который допускает интерпретацию 95% (апостериорной) вероятности содержания истинного значения, то выберите вероятный интервал (а вместе с ним и сопутствующую концептуализацию вероятности), а не доверительный интервал. То, что вы не должны делать, это принять другое определение вероятности в интерпретации, чем то, которое используется в анализе.

Спасибо @cardinal за его уточнения!

Вот конкретный пример из превосходной книги Дэвида Макая «Теория информации, логический вывод и алгоритмы обучения» (стр. 464):

Пусть интересующим параметром будет а данные - пара точек и нарисованная независимо от следующего распределения:д х 1 х 2θDx1x2

p(x|θ)={1/2x=θ,1/2x=θ+1,0otherwise

Если равно , то мы ожидаем увидеть наборы данных , , и с равной вероятностью . Рассмотрим доверительный интервал39 ( 39 , 39 ) ( 39 , 40 ) ( 40 , 39 ) ( 40 , 40 ) 1 / 4θ39(39,39)(39,40)(40,39)(40,40)1/4

[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)] .

Очевидно, что это действительный 75% доверительный интервал, потому что если вы повторно выбираете данные, , много раз, тогда построенный таким образом доверительный интервал будет содержать истинное значение 75% времени.D=(x1,x2)

Теперь рассмотрим данные . В этом случае частый 75% доверительный интервал будет . Однако, если предположить, что модель процесса генерации верна, может быть 28 или 29 в этом случае, и у нас нет оснований предполагать, что 29 более вероятно, чем 28, поэтому апостериорная вероятность равна . Таким образом, в этом случае частый доверительный интервал явно не является вероятным интервалом в 75%, поскольку существует только 50% вероятность того, что он содержит истинное значение , учитывая то , что мы можем сделать вывод о из этого конкретного образца .[ 29 , 29 ] θ р ( θ = 28 | D ) = р ( θ = 29 | D ) = 1 / 2 & thetas ; θD=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2θθ

Да, это надуманный пример, но если бы доверительные интервалы и вероятные интервалы не отличались, то они все равно были бы идентичны в надуманных примерах.

Обратите внимание, что ключевое отличие состоит в том, что доверительный интервал - это утверждение о том, что произойдет, если вы повторили эксперимент много раз, а достоверный интервал - это утверждение о том, что можно сделать из этого конкретного образца.


8
Доверительный интервал является ответом на вопрос «дайте мне интервал, который будет заключать в скобки истинное значение статистики с вероятностью p, если эксперимент будет повторяться большое количество раз». Достоверный интервал является ответом на вопрос «дайте мне интервал, который заключает в скобки истинное значение с вероятностью p». Прежде всего, утверждение относительно частой интерпретации вероятности оставляет желать лучшего. Возможно, проблема заключается в использовании слова « вероятность» в этом предложении. Во-вторых, я считаю, что достоверный интервал «определение» слишком упрощен…
кардинал

7
... и немного вводит в заблуждение, учитывая характеристики, которые вы даете CI. В том же духе заключительное предложение имеет ту же проблему: если вы хотите, чтобы интервал содержал истинное значение 95% времени, выберите надежный интервал, а не доверительный интервал. Разговорное использование «содержит истинное значение 95% времени» немного неточно и оставляет неправильное впечатление. Действительно, я могу привести убедительный аргумент (я полагаю), что такая формулировка гораздо ближе к определению КИ.
кардинал

11
Просьба : было бы полезно, чтобы downvoter к этому ответу выразил свое мнение / причины в комментариях. Хотя этот вопрос немного более вероятен, чем большинство, приведет к расширенному обсуждению, все же полезно предоставить конструктивную обратную связь ответчикам; это один из самых простых способов улучшить общее содержание сайта. Приветствия.
кардинал

9
Дикран, да, я согласен. Это было частью того, что я пытался сделать немного больше в редактировании. Радикальное частотный (который я , конечно , не ) мог бы утверждать , провокационно , как: «А CI является консервативным в том , что я дизайн интервал заранее таким образом, что независимо от того , какие именно данные я случайно наблюдать, параметр будет захвачен в интервале 95% времени. Достоверный интервал возникает из-за того, что «Ой, кто-то просто бросил некоторые данные мне на колени. Какова вероятность того, что интервал, который я строю из этих данных, содержит истинный параметр?» «Это немного несправедливо в последнем случае .. .
кардинальное

2
Дикран, мы все из разных слоев общества, и это помогает обогатить наше понимание. Что касается вероятности и связанных с ней понятий, то, возможно, самый блестящий мыслитель, с которым я имел удовольствие взаимодействовать, не имел формальной статистики или (математического) вероятностного фона; он был инженером.
кардинал

28

В статистике вероятностей вероятности связаны с событиями в долгосрочной перспективе. Они просто не относятся ни к одному событию после его завершения. И запуск эксперимента и расчет КИ - вот такое событие.

Вы хотели сравнить это с вероятностью того, что спрятанная монета будет головой, но вы не можете. Вы можете связать это с чем-то очень близким. Если в вашей игре было правило, согласно которому вы должны указывать после переворота «головы», то вероятность, что вы будете правы в долгосрочной перспективе, составляет 50%, и это аналогично.

Когда вы проводите свой эксперимент и собираете данные, у вас появляется нечто похожее на фактический бросок монеты. Процесс эксперимента подобен процессу подбрасывания монеты тем, что он генерирует μили это не просто как монета в виде головы или нет. Как только вы подбрасываете монету, видите ли вы ее или нет, нет никакой вероятности, что это головы, это либо головы, либо нет. Теперь предположим, что вы называете головы. Вот что такое расчет КИ. Потому что вы никогда не сможете раскрыть монету (ваша аналогия с экспериментом исчезнет). Либо ты прав, либо не прав, вот и все. Имеет ли это текущее состояние какое-либо отношение к вероятности его появления на следующем флипе, или я мог бы предсказать, что это такое? Нет. Процесс, с помощью которого создается голова, имеет 0,5 вероятности их производства, но это не означает, что голова, которая уже существует, имеет вероятность быть 0,5. После того, как вы рассчитаете свой CI, нет вероятности, что он захватит μэто либо делает, либо нет - вы уже перевернули монету.

Ладно, думаю, я этого достаточно замучил. Критическим моментом является то, что ваша аналогия ошибочна. Вы никогда не сможете открыть монету; Вы можете назвать только головы или хвосты, основываясь на предположениях о монетах (эксперименты). Возможно, вы захотите потом сделать ставку на правильность своей головы или хвоста, но вы никогда не сможете получить ее. Кроме того, это важный компонент процедуры CI, который указывает, что значение import находится в интервале. Если вы этого не сделаете, то у вас нет CI (или, по крайней мере, не один на указанный%).

Вероятно, вещь, которая делает CI запутывающим, - это его имя. Это диапазон значений, которые либо содержат, либо не содержат . Мы думаем, что они содержат μ, но вероятность того, что это не то же самое, что процесс его разработки. 95% -ая часть имени 95% -й КИ как раз о процессе. Вы можете рассчитать диапазон, который, как вы считаете, впоследствии содержит μ на некотором уровне вероятности, но это другой расчет, а не КИ.μμμ

μμμ


ppH0p(D|H0)

μ^P(L1(μ^)<μ<L2(mu^)|D)μP(L1<X¯μ<L2)=ααp(H0|D)p(D|H0)

Иногда возможность удалять комментарии имеет свои недостатки. Я не мог идти в ногу с быстрыми изменениями, в этом случае!
кардинал

1
μ

1
@vonjd, я не вижу, что в этом нет смысла. Совершенно очевидно, что у вашего оппонента флеш или нет. Если первое, вероятность равна (тривиально) 1, а если второе 0. Следовательно, вы не можете разумно сказать, что вероятность равна .198. Это имеет смысл. Прежде чем разыгрывать руку, разумно говорить о вероятности получения флеша. Аналогичным образом, перед тем, как взять карту, разумно говорить о вероятности получения нужного вам костюма. После того, как у вас есть карта, она просто подходит.
Gung

22

Формальные, явные представления об аргументах, умозаключениях и логике возникли в рамках западной традиции у Аристотеля. Аристотель писал об этих темах в нескольких разных работах (в том числе под названием « Темы» ;-)). Тем не менее, самый основной принцип - это Закон Непротиворечия , который можно найти в разных местах, включая Метафизику.Книга IV, главы 3 и 4. Типичная формулировка такова: «... невозможно, чтобы что-то одновременно было и не было [в том же смысле]» (1006 a 1). Его важность была заявлена ​​чуть ранее: «... это, естественно, отправная точка даже для всех других аксиом» (1005 b 30). Извините меня за растущее философское отношение, но этот вопрос по своей природе имеет философское содержание, которое нельзя просто отодвинуть для удобства.

Подумайте об этом мысленном эксперименте: Алекс подбрасывает монету, ловит ее и переворачивает на предплечье, закрывая руку стороной вверх. Боб стоял в правильном положении; он кратко увидел монету в руке Алекса и, таким образом, может определить, какая сторона обращена вверх. Однако Карлос не видел монету - он был не в нужном месте. В этот момент Алекс спрашивает их, какова вероятность того, что монета показывает головы. Карлос предполагает, что вероятность равна .5, так как это долгосрочная частота голов. Боб не согласен, он уверенно утверждает, что вероятность не что иное, как точно 0 .

Теперь, кто прав? Возможно, конечно, что Боб ошибся и ошибся (допустим, он не увидел). Тем не менее, вы не можете утверждать, что оба правы и придерживаются закона не противоречия. (Я полагаю, что если вы не верите в закон непротиворечия, вы могли бы подумать, что они оба правы, или какую-то другую подобную формулировку.) Теперь представьте себе аналогичный случай, но без Боба, может ли предложение Карлоса быть Правильнее (а?) без Боба вокруг, так как никто не видел монету? Применение закона непротиворечия не совсем ясно в этом случае, но я думаю, что очевидно, что части ситуации, которые кажутся важными, остаются неизменными от первого к последнему. Было много попыток определить вероятность, и в будущем еще может быть еще много, но определение вероятности как функции того, кто оказывается рядом, и где они расположены, мало привлекает. Во всяком случае (угадывая по использованию фразы "доверительный интервал "), мы работаем в рамках подхода Frequentist, и в этом отношении не важно, знает ли кто-нибудь истинное состояние монеты. Это не случайная величина - это реализованная величина, и она либо показывает головы, либо показывает хвосты ,

pp=.5p=.95p

Для меня важно отметить, что все это относится к частым представлениям о вероятности. Байесовская перспектива не нарушает закон непротиворечия, она просто начинается с разных метафизических предположений о природе реальности (более конкретно о вероятности). Другие в CV гораздо лучше разбираются в байесовской перспективе, чем я, и, возможно, они могут объяснить, почему предположения, лежащие в основе вашего вопроса, не применимы в рамках байесовского подхода, и что на самом деле вполне может быть 95% вероятность среднего лежащий в пределах вероятности 95%интервал, при определенных условиях, включая (среди прочего), что предыдущее использование было точным (см. комментарий @DikranMarsupial ниже). Тем не менее, я думаю, что все согласятся, что, как только вы заявите, что работаете в рамках подхода Frequentist, это не может быть причиной того, что вероятность истинного среднего значения, лежащего в пределах любого конкретного 95% -ного доверительного интервала, составляет 0,95.


5
При байесовском подходе неправда, что на самом деле существует 95% вероятность того, что истинное значение лежит в 95% вероятном интервале. Было бы правильнее сказать, что, учитывая конкретное предварительное распределение для значения статистики (представляющего наше начальное состояние знаний), а затем, наблюдая за данными, мы имеем апостериорное распределение, представляющее обновленное состояние знаний, которое дает нам интервал, где мы на 95% уверены, что истинная ценность кроется. Это будет точным только в том случае, если наши предварительные данные точны (и другие предположения, такие как форма вероятности).
Дикран Marsupial

@DikranMarsupial, спасибо за примечание. Это немного глотка. Я отредактировал мой ответ , чтобы сделать его более совместимым с вашим предложением, но не копировать его целиком . Дайте мне знать, если дальнейшие изменения уместны.
gung

По сути, байесовский подход лучше всего интерпретировать как утверждение вашего уровня знаний о параметре интереса (см. Кардинал, я учусь; о), но не гарантирует, что этот уровень знаний является правильным, если все предположения не верны , Мне понравилась философская дискуссия, мне нужно будет вспомнить закон непротиворечивости, потому что в следующий раз мы обсудим нечеткую логику; o)
Дикран Разъяренный

12

Почему 95% -й ДИ не подразумевает 95-процентную вероятность сдерживания среднего значения?

В этом и многих других ответах есть много вопросов, которые необходимо прояснить. Я ограничусь только двумя из них.

а. Что такое население? Существует ли истинное население значит?

Концепция среднего населения зависит от модели. Поскольку все модели ошибочны, но некоторые из них полезны, это совокупность означает фикцию, которая определена просто для предоставления полезных интерпретаций. Художественная литература начинается с вероятностной модели.

(X,F,P),
XFXPF
μ=xXxP(X=x),
PXxXP(X=x)

PPPPM

(X,F,M).
ΘRpp<M{Pθ: θΘ}

PθM

μθ=xXxPθ(X=x).
{μθ: θΘ}MMM

MΘ

б. Каково определение и цель доверительного интервала?

1αCαθΘ

Pθ(Cα(X)μθ)1α   and   infθΘPθ(Cα(X)μθ)=1α,
Pθ(Cα(X)=)=0Pθ(Cα(X)μθ)Cα(X)μθPθ1α

Примечание: читатели должны заметить, что нет необходимости делать предположения о состоянии реальности, доверительная область определяется для четко определенной статистической модели без ссылки на какое-либо «истинное» среднее значение. Даже если «истинная» мера вероятности не существует или ее нет в , определение доверительной области будет работать, поскольку предположения касаются статистического моделирования, а не состояний реальности.M

С одной стороны, перед наблюдением данных является случайным набором (или случайным интервалом), и вероятность того, что " содержит среднее значение ", по крайней мере, равна для всех . Это очень желательная особенность для парадигмы участника.Cα(X)Cα(X)μθ(1α)θΘ

С другой стороны, после наблюдения данных , является просто фиксированным набором, и вероятность того, что « содержит среднее значение », должна быть в {0,1} для все .xCα(x)Cα(x)μθθΘ

То есть после наблюдения данных мы больше не можем использовать вероятностные рассуждения. Насколько я знаю, не существует теории для обработки наборов достоверности для наблюдаемой выборки (я работаю над этим и получаю некоторые хорошие результаты). Какое-то время частый участник должен верить, что наблюдаемый набор (или интервал) является одним из наборов, который содержит для всех ,xCα(x)(1α)100%μθθΘ

PS: я приглашаю любые комментарии, отзывы, критические замечания или даже возражения на мой пост. Давайте обсудим это подробно. Поскольку я не являюсь носителем английского языка, мой пост, безусловно, содержит опечатки и грамматические ошибки.

Ссылка:

Schervish, М. (1995), Теория статистики, Второе издание, Springer.


Кто-нибудь хочет это обсудить?
Александр Патриота

4
Обсуждения могут происходить в чате, но они неуместны на нашем основном сайте. Пожалуйста, посетите наш справочный центр для получения дополнительной информации о том, как это работает. Между тем, я озадачен форматированием вашего поста: почти все оно отформатировано как цитата. Вы извлекли этот материал из какого-то опубликованного источника или это ваш собственный, недавно написанный для этого ответа? Если это последнее, пожалуйста, удалите цитаты!
whuber

2
(+1). Спасибо за впечатляюще четкий обзор. Добро пожаловать на наш сайт!
whuber

11

Я удивлен, что никто не привел в пример Бергера практически бесполезный 75% доверительный интервал, описанный во второй главе «Принципа правдоподобия». Подробности можно найти в оригинальном тексте (который доступен бесплатно в Project Euclid ): что важно в этом примере, так это то, что он однозначно описывает ситуацию, в которой вы с абсолютной уверенностью знаете значение неизвестного параметра после наблюдения данных, но вы бы утверждали, что у вас есть только 75% уверенности, что ваш интервал содержит истинное значение. Проработка деталей этого примера позволила мне понять всю логику построения доверительных интервалов.


8
При частой настройке нельзя было бы «утверждать, что у вас есть только 75% уверенности в том, что ваш интервал содержит истинное значение» в первую очередь по отношению к КИ. В этом суть проблемы. :)
кардинал

1
Можете ли вы предоставить прямую ссылку / ссылку на страницу в этом примере? Я искал главу, но я не мог определить правильный пример.
Рональд

@Ronald: Это первый на первой странице главы 2. Прямая ссылка будет долгожданным дополнением.
кардинал

1
Ссылка по запросу. О да. В этом примере кажется очевидным: если мы проведем эксперимент, существует 75% вероятность того, что полученный доверительный интервал будет содержать среднее значение. После того, как мы выполним эксперимент и узнаем, как он закончился, эта вероятность может быть различной в зависимости от распределения полученной выборки.
Рональд

7

Я не знаю, следует ли задавать этот вопрос как новый вопрос, но он решает тот же вопрос, который был задан выше, предлагая мысленный эксперимент.

Во-первых, я собираюсь предположить, что если я выберу игральную карту случайным образом из стандартной колоды, вероятность того, что я выбрал клуб (не глядя на него), будет 13/52 = 25%.

А во-вторых, много раз говорилось, что 95% доверительный интервал следует интерпретировать с точки зрения многократного повторения эксперимента, и рассчитанный интервал будет содержать истинное среднее значение 95% времени - я думаю, что это было достаточно убедительно продемонстрировано Джеймсом Уотерсом моделирование. Похоже, что большинство людей принимают эту интерпретацию 95% ДИ.

Теперь для мысленного эксперимента. Давайте предположим, что у нас есть нормально распределенная переменная в большой популяции - может быть, высота взрослых мужчин или женщин. У меня есть готовый и неутомимый помощник, которому я поручаю выполнить несколько процессов выборки с заданным размером выборки из популяции и вычислить среднее значение выборки и 95% доверительный интервал для каждой выборки. Мой помощник очень увлечен и умеет измерить все возможные образцы из населения. Затем для каждой выборки мой помощник либо записывает полученный доверительный интервал в виде зеленого (если КИ содержит истинное среднее значение) или красного (если КИ не содержит истинное среднее значение). К сожалению, мой помощник не покажет мне результаты своих экспериментов. Мне нужно получить некоторую информацию о росте взрослого населения, но у меня есть только время, ресурсы и терпение, чтобы сделать эксперимент один раз. Я делаю одну случайную выборку (того же размера, что и мой помощник) и вычисляю доверительный интервал (используя то же уравнение).

У меня нет возможности увидеть результаты моего помощника. Итак, какова вероятность того, что выбранная мной случайная выборка даст зеленый CI (то есть интервал содержит истинное среднее)?

На мой взгляд, это то же самое, что и описанная ранее ситуация с колодой карт, и ее можно интерпретировать с вероятностью 95% того, что рассчитанный интервал содержит истинное среднее значение (т. Е. Зеленый цвет). И все же, кажется, что консенсус заключается в том, что 95% доверительный интервал НЕ МОЖЕТ интерпретироваться, поскольку существует 95% вероятность того, что интервал содержит истинное среднее значение. Почему (и где) мои рассуждения в вышеупомянутом мысленном эксперименте расходятся?


+1 Это удивительно четкое описание концептуального перехода от нормальной популяции к ситуации бинарной выборки. Спасибо, что поделились с нами, и добро пожаловать на наш сайт!
whuber

Пожалуйста, оставьте это как вопрос.
Джон

Спасибо за комментарий, Джон. В настоящее время размещены в виде отдельного вопроса ( stats.stackexchange.com/questions/301478/… ).
user1718097

4

Хотя в многочисленных замечательных ответах шла широкая дискуссия, я хочу добавить более простую перспективу. (хотя это было намекали в других ответах. - но не явно) Для некоторого параметра , и дается образец , доверительный интервал является вероятностным утверждением видаθ(X1,X2,,Xn)100p%

P(g(X1,X2,,Xn)<θ<f(X1,X2,,Xn))=p

Если мы считаем константой, то приведенное выше утверждение касается случайных величин и или, точнее, случайный интервал .g ( X 1 , X 2 , , X n ) f ( X 1 , X 2 , , X n ) ( g ( X 1 , X 2 , , X n ) , f ( X 1 , X 2 , , X н ) )θg(X1,X2,,Xn)f(X1,X2,,Xn)(g(X1,X2,,Xn),f(X1,X2,,Xn))

Таким образом, вместо предоставления какой-либо информации о вероятности того, что параметр содержится в интервале, он дает информацию о вероятности интервала, содержащего параметр - так как интервал сделан из случайных величин.


3

В практических целях вы не ошибаетесь, если ставите, что ваш 95% -й КИ содержал истинное среднее значение с коэффициентом 95: 5, чем если бы вы ставили на бросок монеты вашего друга с коэффициентом 50:50.

Если ваш друг уже перевернул монету, и вы думаете, что вероятность того, что она окажется головой, составляет 50% , тогда вы просто используете другое определение вероятности слова. Как уже говорили другие, для часто встречающихся вы не можете назначить вероятность события, которое произошло, но вы можете описать вероятность события, которое произойдет в будущем, используя данный процесс.

Из другого блога: Частый участник скажет: «У конкретного события не может быть вероятности. Монета показывает либо голову, либо хвосты, и если вы не покажете это, я просто не могу сказать, каков факт. Только если вы повторили бы бросок много-много раз, если вы достаточно сильно измените начальные условия бросков, я ожидаю, что относительная частота голов во всех этих множествах приблизится к 0,5 ". http://www.researchgate.net/post/What_is_the_difference_between_frequentist_and_bayesian_probability


2
Этот блог звучит как аргумент соломенного человека. Похоже, что она путает философию вероятности с каким-то (несуществующим) внутренним ограничением в способности создавать вероятностные модели. Я не признаю какую-либо форму классических статистических процедур или методологий в этой характеристике. Тем не менее, я думаю, что ваш окончательный вывод является хорошим - но язык, который он использует, не давая понять, что ставка касается CI, а не среднего, рискует создать форму путаницы, на которую должен ответить этот вопрос.
whuber

1
Один из способов, который я часто использую, состоит в том, чтобы подчеркнуть, что КИ является результатом процедуры. Что мне нравится в вашем последнем утверждении, так это то, что оно может быть легко изменено в такой форме, как в «Вы не ошибаетесь, если делаете ставку 95: 5, что ваш 95% доверительный интервал покрыл истинное среднее значение, чем вы». сделать ставку на бросок монеты вашего друга с коэффициентом 50:50. "
whuber

ОК, изменил это.
nigelhenry

2

Скажите, что КИ, который вы рассчитали на основе определенного набора данных, является одним из 5% возможных КИ, которые не содержат среднего значения. Насколько он близок к 95% вероятному интервалу, который вы хотели бы себе представить? (То есть насколько это близко к среднему значению с вероятностью 95%?) Вы не уверены, что оно близко. Фактически, ваш CI не может перекрываться даже с одним из 95% 95% CI, которые действительно содержат среднее значение. Не говоря уже о том, что оно не содержит само значение, что также предполагает, что это не 95% вероятный интервал.

Может быть, вы хотите игнорировать это и оптимистично предположить, что ваш CI является одним из 95%, которые содержат среднее значение. Хорошо, что мы знаем о вашем CI, учитывая, что он в 95%? То, что оно содержит среднее, но, возможно, единственный крайний выход, исключая все остальное с другой стороны от среднего. Не может содержать 95% распределения.

В любом случае, нет никакой гарантии, возможно, нет даже разумной надежды на то, что ваш 95% -й доверительный интервал - это 95% вероятный интервал.


Мне любопытно насчет первого абзаца. Возможно, я неверно истолковываю это, но аргумент кажется немного противоречащим тому факту, что существует множество примеров, в которых КИ и вероятные интервалы совпадают для всех возможных наборов наблюдений. Что я пропустил?
кардинал

@ Cardinal: Я могу ошибаться. Я говорил об общем случае, но я думаю, что в случае, когда КИ и вероятный интервал совпадают, существуют другие ограничения, такие как нормальность, которые не позволяют КИ быть слишком далеко.
Уэйн

Мое внимание было обращено на последнее предложение в абзаце; Пример совпадающих интервалов должен был выделить точку. Вы можете подумать, действительно ли вы верите этому предложению или нет. :)
кардинал

Вы имеете в виду, что 95% ДИ не означает, что 5% не включают среднее значение? Я должен сказать «по определению, не нужно ли даже содержать само значение»? Или я скучаю еще больше?
Уэйн

Уэйн, как тот факт, что конкретный интервал не содержит среднее значение, не позволяет ему быть допустимым достоверным интервалом? Я неправильно понял это замечание?
кардинал

2

(т.е. друг подбрасывает честную монету, скрывает результат, и я не могу сказать, что есть 50% -ная вероятность, что у него голова)

Если вы только предполагаете, что ваши друзья подбрасывают монеты с 50% головами / хвостами, значит, вы делаете это неправильно.

  • Вы должны попытаться быстро взглянуть на монету после / когда она приземлится и до того, как результат будет скрыт.
  • Также вам следует постараться заранее составить некоторую априорную оценку справедливости монеты.

Конечно, достоверность вашего предположения о броске монеты будет зависеть от этих условий и не всегда будет одинаковой на 50% (иногда ваш метод «мошенничества» может работать лучше).

Ваше общее предположение может быть, если вы обманываете, х> 50% времени правильно, но это не обязательно означает, что вероятность каждого конкретного броска постоянно х% головы. Так что было бы немного странно проецировать вашу общую вероятность на вероятность конкретного броска. Это другой «тип вероятности».


Это немного о том, на какой уровень или глубину вы указываете / определяете «вероятность» .

  • Доверие не зависит от «конкретной вероятности в конкретном эксперименте / броске» и не зависит от «априорной вероятности» .

  • Уверенность в ансамбле экспериментов . Он построен таким образом, что вам не нужно знать априорные вероятности или распределения в популяции.

  • Доверие относится к общей «частоте отказов» оценки, но для конкретных случаев можно было бы более точно указать вариации вероятности .

    ( Эти вариации в вероятности, по крайней мере, существуют неявно , в теории, и нам не нужно знать их, чтобы они существовали. Но мы можем явно выразить эти вероятности, используя байесовский подход).


Пример 1:

p=0.99p=0.01

p0.05p10p0.95

Если у вас заболел 1% населения, то в среднем вы получите 1,98% положительного результата теста (1% из 99% здоровых людей дают положительный результат теста, а 99% из 1% больных имеют положительный результат). Это делает ваш 95% интервал CI (условный), когда вы сталкиваетесь с положительным тестом , правильным только в 50% случаев.

p

Пример 2:

iN(μi,σi2)μi

μiN(100,15)

(обратное верно для людей, которые имеют результаты, близкие к 100, их IQ, вероятно, будет более вероятным, чем 95% при 95% -ном доверительном интервале, и это должно компенсировать ошибки, которые вы допустили в крайних случаях, так что вы в конечном итоге окажетесь правы в 95% случаев)


2

Во-первых, давайте дадим определение доверительного интервала, или, в пространствах измерения больше единицы, доверительной области. Это определение является краткой версией, данной Ежи Нейманом в его статье 1937 года Королевскому обществу.

pspA(p,α)prob(sA(p,α)|p=p,I)=ααIps=sC(s,α)={p|sA(p,α)}

α

p

[pC(s,α)]prob(s=s|p=p,I)ds=[sA(p,α)]prob(s=s|p=p,I)ds=α

[pC(s,α)]pαppp

s=s

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=s|p=p,I)prob(p=p|I)dpprob(s=s|p=p,I)prob(p=p|I)dp

αIA(p,α)spp

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=p|p=s,I)dpprob(s=p|p=s,I)dp=prob(sC(s,α)|p=s,I)=prob(sA(s,α)|p=s,I)

sA(s,α)sA(s,α)

prob(pC(s,α)|s=s,I)=prob(sA(s,α)|p=s,I)=α

Пример учебника по оценке среднего значения по населению со стандартным доверительным интервалом, построенным по нормальной статистике, является частным случаем предыдущих предположений. Поэтому стандарт 95% доверительный интервал делает содержит среднее значение с вероятностью 0,95; но это соответствие обычно не имеет места.


-1

Здесь есть несколько интересных ответов, но я решил добавить небольшую практическую демонстрацию с использованием R. Недавно мы использовали этот код в курсе статистики, чтобы показать, как работают доверительные интервалы. Вот что делает код:

1 - Это выборки из известного распределения (n = 1000)

2 - Он рассчитывает 95% ДИ для среднего значения каждого образца

3 - Он спрашивает, включает ли CI каждого образца истинное среднее значение.

4 - В консоли отображается доля CI, включающая истинное среднее.

Я просто запускал сценарий несколько раз, и на самом деле нередко обнаруживается, что менее 94% КИ содержали истинное среднее значение. По крайней мере, для меня это помогает развеять идею о том, что доверительный интервал с вероятностью 95% содержит истинный параметр.

#   In the following code, we simulate the process of
#   sampling from a distribution and calculating
#   a confidence interval for the mean of that 
#   distribution.  How often do the confidence
#   intervals actually include the mean? Let's see!
#
#   You can change the number of replicates in the
#   first line to change the number of times the 
#   loop is run (and the number of confidence intervals
#   that you simulate).
#
#   The results from each simulation are saved to a
#   data frame.  In the data frame, each row represents
#   the results from one simulation or replicate of the 
#   loop.  There are three columns in the data frame, 
#   one which lists the lower confidence limits, one with
#   the higher confidence limits, and a third column, which
#   I called "Valid" which is either TRUE or FALSE
#   depending on whether or not that simulated confidence
#   interval includes the true mean of the distribution.
#
#   To see the results of the simulation, run the whole
#   code at once, from "start" to "finish" and look in the
#   console to find the answer to the question.    

#   "start"

replicates <- 1000

conf.int.low <- rep(NA, replicates)
conf.int.high <- rep(NA, replicates)
conf.int.check <- rep(NA, replicates)

for (i in 1:replicates) {

        n <- 10
        mu <- 70
        variance <- 25
        sigma <- sqrt(variance)
        sample <- rnorm(n, mu, sigma)
        se.mean <- sigma/sqrt(n)
        sample.avg <- mean(sample)
        prob <- 0.95
        alpha <- 1-prob
        q.alpha <- qnorm(1-alpha/2)
        low.95 <- sample.avg - q.alpha*se.mean
        high.95 <- sample.avg + q.alpha*se.mean

        conf.int.low[i] <- low.95
        conf.int.high[i] <- high.95
        conf.int.check[i] <- low.95 < mu & mu < high.95
 }    

# Collect the intervals in a data frame
ci.dataframe <- data.frame(
        LowerCI=conf.int.low,
        UpperCI=conf.int.high, 
        Valid=conf.int.check
        )

# Take a peak at the top of the data frame
head(ci.dataframe)

# What fraction of the intervals included the true mean?
ci.fraction <- length(which(conf.int.check, useNames=TRUE))/replicates
ci.fraction

    #   "finish"

Надеюсь это поможет!


2
Извиняюсь за критику, но мне пришлось (временно) понизить этот ответ. Я считаю, что это неверное понимание значения доверительного интервала, и я искренне надеюсь, что это не тот аргумент, который использовался в вашем классе. Моделирование сводится к (довольно сложному) биномиальному эксперименту по отбору проб.
кардинал

5
1α=0.95

4
«Менее 94%» в выборке из 1000 ДИ, безусловно, не является существенным доказательством против идеи о том, что 95% ДИ содержат среднее значение. Фактически, в этом случае я бы ожидал, что 95% CI действительно содержат среднее значение.
Рональд

3
@Ronald: Да, это была моя точка зрения с комментариями, но вы сказали это гораздо проще и лаконичнее. Благодарю. Как указано в одном из комментариев, каждый будет видеть 940 или менее успешных примерно в 8,7% случаев, и это верно для любых 95% ДИ, которые каждый строит в течение 1000 экспериментов. :)
кардинал

2
@JamesWaters: Спасибо, что нашли время ответить. Код в порядке, но я не вижу, как он «демонстрирует случаи, когда он некорректен». Можете ли вы объяснить это намерение? Я все еще подозреваю, что здесь может быть фундаментальное недоразумение. Похоже, вы понимаете, что такое CI и как правильно его интерпретировать, но эксперимент по моделированию не отвечает на вопрос, на который, как вы, кажется, он отвечает. Я думаю, что у этого ответа есть потенциал, поэтому я хотел бы, чтобы он закончился приятным редактированием, чтобы прояснить вопрос, который вы пытаетесь донести. Приветствия. :)
кардинал
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.