Разъяснения по интерпретации доверительных интервалов?


47

Мое нынешнее понимание понятия «доверительный интервал с уровнем доверия » является то , что если бы мы попытались вычислить доверительный интервал много раз (каждый раз с новым образцом), он будет содержать правильный параметр из время.1 - α1α1α

Хотя я понимаю, что это не то же самое, что «вероятность того, что истинный параметр находится в этом интервале», я хочу кое-что прояснить.

[Основное обновление]

Прежде чем мы вычислим 95% доверительный интервал, есть 95% вероятность того, что интервал, который мы рассчитываем, покроет истинный параметр. После того, как мы вычислили доверительный интервал и получили определенный интервал , мы больше не можем говорить это. Мы даже не можем сделать какой-то нечастый аргумент, что мы на 95% уверены, что истинный параметр будет лежать в ; ибо если бы мы могли, это противоречило бы контрпримерам, таким как этот: что именно является доверительным интервалом?[ a , b ][a,b][a,b]

Я не хочу спорить о философии вероятности; вместо этого я ищу точное математическое объяснение того, как и почему видение определенного интервала изменяет (или не меняет) вероятность 95%, которую мы имели до того, как увидели этот интервал. Если вы утверждаете, что «увидев интервал, понятие вероятности больше не имеет смысла», тогда хорошо, давайте поработаем в интерпретации вероятности, в которой он имеет смысл.[a,b]

Точнее:

Предположим, мы запрограммировали компьютер для расчета 95% доверительного интервала. Компьютер вычисляет некоторые цифры, вычисляет интервал и отказывается показывать интервал, пока я не введу пароль. До того, как я ввел пароль и увидел интервал (но после того, как компьютер уже рассчитал его), какова вероятность того, что интервал будет содержать истинный параметр? Это 95%, и эта часть не подлежит обсуждению : это интерпретация вероятности, которая меня интересует для этого конкретного вопроса (я понимаю, что есть основные философские проблемы, которые я подавляю, и это намеренно).

Но как только я введу пароль и заставлю компьютер показать мне вычисленный интервал, вероятность (что интервал содержит истинный параметр) может измениться. Любое утверждение, что эта вероятность никогда не изменится, противоречило бы приведенному выше контрпримеру. В этом контрпримере вероятность может измениться с 50% до 100%, но ...

  • Существуют ли примеры, когда вероятность изменяется на что-то отличное от 100% или 0% (РЕДАКТИРОВАТЬ: и если да, то каковы они)?

  • Есть ли примеры, когда вероятность не меняется после просмотра определенного интервала (т.е. вероятность того, что истинный параметр лежит в , все еще составляет 95%)?[ a , b ][a,b][a,b]

  • Как (и почему) меняется вероятность в целом после того, как компьютер выплюнул ?[a,b]

[Редактировать]

Спасибо за отличные ответы и полезные обсуждения!


1
Это может обеспечить некоторые интересные моменты: en.wikipedia.org/wiki/Credible_interval
Нико

Ваши предположения о том, что P (E | C) = 1 и P (E | C ') = 0 неоправданны. Почему вы утверждаете, что если фактический интервал не содержит истинного значения параметра, этот последний, несомненно, находится за его пределами?
стеклянный

Я не уверен, что вы подразумеваете под «фактическим интервалом» или «последним». Можете ли вы уточнить?
Эллиотт

@nico Спасибо за ссылку. Цель моего первоначального вопроса заключалась в том, что «мой аргумент, похоже, показывает, что доверительный интервал можно интерпретировать как байесовский достоверный интервал, но это не так, так что не так с моими рассуждениями». Но я должен признать, что меня не устраивает понятие «вероятность того, что интервал содержит параметр [unknown] true, равен 0 или 1». Для меня это все равно, что сказать: «вероятность того, что монета приземлилась после того, как я ее подбросил, но прежде чем я посмотрел на нее, равна 0 или 1»; Я не понимаю, почему это не 1/2.
Эллиотт

@Elliot: Кошка Шредингера приходит на ум :) Я не достаточно опытен, чтобы дать вам правильное объяснение, но я бы хотел увидеть ответ на этот вопрос. PS: и давайте не будем забывать, что монета тоже может упасть на грань!
Нико

Ответы:


28

Я думаю, что фундаментальная проблема заключается в том, что статистика по частоте может присваивать вероятность только тому, что может иметь длительную частоту. Независимо от того, находится ли истинное значение параметра в определенном интервале или нет, частота не рассчитана на длительный период, потому что мы можем выполнить эксперимент только один раз, поэтому вы не можете присвоить ему частоту вероятности. Проблема возникает из определения вероятности. Если вы измените определение вероятности на байесовское, то проблема мгновенно исчезнет, ​​поскольку вы больше не привязаны к обсуждению долгосрочных частот.

См. Мой (скорее ласку) ответ на связанный с этим вопрос здесь :

« Частый человек - это тот, кто полагает, что вероятности представляют долгосрочные частоты, с которыми происходят события; если потребуется, он придумает фиктивную совокупность, из которой ваша конкретная ситуация может считаться случайной выборкой, чтобы он мог осмысленно говорить о частотах долгосрочного запуска. Вы задаете ему вопрос о конкретной ситуации, он не даст прямого ответа, а вместо этого делает заявление об этой (возможно, воображаемой) популяции ».

В случае доверительного интервала вопрос, который мы обычно хотели бы задать (если, например, у нас нет проблем с контролем качества), «учитывая эту выборку данных, возвращает наименьший интервал, который содержит истинное значение параметра с вероятностью ИКС". Однако частый человек не может сделать это, так как эксперимент выполняется только один раз, и поэтому нет никаких долгосрочных частот, которые можно использовать для определения вероятности. Таким образом, вместо этого часто использующийся должен придумывать совокупность экспериментов (которые вы не выполняли), из которых эксперимент, который вы выполняли, можно считать случайной выборкой. После этого частый участник дает вам косвенный ответ об этой фиктивной группе экспериментов, а не прямой ответ на вопрос, который вы действительно хотели задать о конкретном эксперименте.

По сути, это проблема языка: частое определение популяции просто не позволяет обсуждать вероятность истинного значения параметра, лежащего в определенном интервале. Это не означает, что статистика для частых пользователей плохая или бесполезная, но важно знать ограничения.

Относительно основного обновления

Я не уверен, что мы можем сказать, что «прежде чем мы вычислим доверительный интервал 95%, существует 95% вероятность того, что интервал, который мы рассчитываем, охватит истинный параметр». в частых рамках. Здесь имеется неявный вывод, что долгосрочная частота, с которой истинное значение параметра лежит в доверительных интервалах, построенных каким-либо конкретным методом, также является вероятностью того, что истинное значение параметра будет лежать в доверительном интервале для конкретной выборки. данных, которые мы собираемся использовать. Это совершенно разумный вывод, но это байесовский вывод, а не частый, поскольку вероятность того, что истинное значение параметра лежит в доверительном интервале, который мы строим для конкретной выборки данных, не имеет долгосрочной частоты, так как у нас есть только один образец данных.

Тем не менее, мы можем «выдвинуть какой-то нечастый аргумент, что мы на 95% уверены, что истинный параметр будет лежать в [a, b]», это именно то, что является байесовским вероятным интервалом, а для многих проблем байесовским вероятным интервалом точно совпадает с частотой доверительного интервала.

«Я не хочу обсуждать философию вероятности», к сожалению, это неизбежно, причина, по которой вы не можете присвоить частоту вероятности того, что истинное значение статистики лежит в доверительном интервале, является прямым следствием из частичной философии вероятности. Частые участники могут присваивать вероятности только вещам, которые могут иметь длительные частоты, поскольку именно так частые люди определяют вероятность в своей философии. Это не делает ошибочную философию часто, но важно понимать границы, налагаемые определением вероятности.

«Прежде чем я ввел пароль и увидел интервал (но после того, как компьютер уже рассчитал его), какова вероятность того, что интервал будет содержать истинный параметр? Это 95%, и эта часть не подлежит обсуждению:« Это неверно, или, по крайней мере, делая такое заявление, вы вышли из рамок статистики, основанной на частоте, и сделали байесовский вывод, предполагающий степень правдоподобности в истинности утверждения, а не долгосрочную частоту. Однако, как я уже говорил ранее, это совершенно разумный и естественный вывод.

Ничего не изменилось ни до, ни после ввода пароля, потому что ни одному событию можно присвоить частую вероятность. Статистика по частоте может быть довольно нелогичной, так как мы часто хотим задавать вопросы о степени правдоподобности заявлений, касающихся конкретных событий, но это выходит за рамки статистики по частоте, и это является источником большинства неправильных толкований процедур, основанных на частоте.


2
Да, именно это я и подчеркиваю, второе утверждение на самом деле не утверждение об этой конкретной монете. Это утверждение о воображаемой популяции монет, которое большинство людей неправильно интерпретируют как утверждение о нашей конкретной монете. Однако, совершая этот скачок, мы применяем байесовскую интуицию о вероятности и игнорируем, каков на самом деле доверительный интервал. Нет никакой проблемы в назначении вероятности состоянию монеты, если мы отойдем от частого определения вероятности.
Дикран Marsupial

2
Чтобы уточнить, сказать, что «представьте себе множество отдельных случаев начала времени; вы ожидаете, что около половины из них производят головы», - это совершенно правильные частые рассуждения. Однако перейти оттуда к «следовательно, вероятность того, что эта особая монета также равна 0,5» не является вероятностью, применяемой к чему-то, что не имеет долгосрочной частоты, поскольку это может происходить только один раз и только один раз. Впрочем, это вполне обоснованные байесовские рассуждения, поскольку байесовская вероятность - это утверждение о правдоподобности предложения (которое может быть основано на долгосрочной частоте внутри популяции).
Дикран Marsupial

1
На самом деле его ответом на оба вопроса было бы утверждение о пропорции воображаемой популяции монет, которые могли бы приземлиться. Но вполне вероятно, что это не будет сделано явно, так как люди обычно любят быть полезными (косвенные ответы, как правило, не очень полезны), а также статистика по частоте довольно нелогична, и она, вероятно, избегает этого, чтобы избежать спутанность сознания. Если бы придавить, чтобы сделать вероятностное утверждение о конкретном броске, хороший частый человек просто отказался бы отвечать - он находится за пределами частых статистических данных.
Дикран Marsupial

1
По сути, частый участник на самом деле не ответил бы на ваш вопрос, он сделал бы заявление о совокупности монетных бросков и оставил бы вас из этого сделать вывод, что вероятность появления головы на этом конкретном броске была такой же, как и доля в скрытой совокупности , Но это будет ваш байесовский вывод, а не его.
Дикран Marsupial

1
@ Аарон Конечно, вы могли бы сказать, что «вероятность равна 0 или 1» для многих вещей, но этот ответ абсолютно ничего не покупает (например, если мы хотим ответить на конкретный вопрос о том, сколько мы должны сделать ставку на игру или или нет, мы должны запустить космический челнок). Кроме того, «могло произойти» следующее: (1) приземлились монеты на головы, и вы накрыли их, (2) хвосты приземлились на монеты, и вы накрыли их; в «воображаемой популяции» многих «переворачивающих и скрывающих» испытаний около 50% приводят к тому, что вы видите головы.
Эллиотт

14

Главное обновление, новый важный ответ. Позвольте мне попытаться четко решить этот вопрос, потому что именно в этом заключается проблема:

«Если вы утверждаете, что« увидев интервал, понятие вероятности больше не имеет смысла », тогда хорошо, давайте поработаем в интерпретации вероятности, в которой он имеет смысл».

Правила вероятности не меняются, но ваша модель для вселенной меняется. Готовы ли вы дать количественную оценку своим предыдущим представлениям о параметре, используя распределение вероятностей? Является ли обновление этого распределения вероятности после просмотра данных разумным решением? Если вы так думаете, то можете сделать такие заявления, как . Мое предыдущее распределение может отражать мою неуверенность в истинном состоянии природы , а не просто случайностьP(θ[L(X),U(X)]|X=x)как это обычно понимают, то есть, если я назначу предыдущее распределение числу красных шаров в урне, это не означает, что я думаю, что количество красных шаров является случайным. Это исправлено, но я не уверен в этом.

Несколько человек, в том числе и я, говорили это, но если вы не хотите называть случайной величиной, то утверждение P ( θ [ L ( X ) , U ( X ) ] | X = x ) не имеет смысла. Если я частый человек, я рассматриваю θ как фиксированную величину, и я не могу приписать ей распределение вероятностей. Почему? Потому что это исправлено, и моя интерпретация вероятности в терминах долгосрочных частот. Количество красных шаров в урне никогда не меняется. θ это то, что θθP(θ[L(X),U(X)]|X=x)θθθявляется. Если я вытащу несколько шаров, у меня будет случайный образец. Я могу спросить, что случилось бы, если бы я взял кучу случайных выборок, то есть я могу говорить о потому что интервал зависит от выборки, которая (подожди!) случайно.P(θ[L(X),U(X)])

Но ты не хочешь этого. Вы хотите, чтобы - какова вероятность того, что этот интервал, который я построил с моей наблюдаемой (и теперь фиксированной) выборкой, содержит параметр. Однако, как только вы привыкаете к X = x, мне, частому человеку, не остается ничего случайного, и утверждение P ( θ [ L ( X ) , U ( X ) ] |P(θ[L(X),U(X)]|X=x)X=x не имеет никакого смысла.P(θ[L(X),U(X)]|X=x)

Единственный принципиальный способ (IMO) сделать утверждение о - это количественно определить нашу неопределенность относительно параметра с (предшествующим) распределением вероятности и обновить это распространение с новой информацией через теорему Байеса. Любой другой подход, который я видел, является слабым приближением к байесовскому. Вы, конечно, не можете сделать это с частой точки зрения.P(θ[L(X),U(X)]|X=x)

Это не означает, что вы не можете оценить традиционные процедуры для частых с байесовской точки зрения (например, часто доверительные интервалы - это просто достоверные интервалы при единообразных априорных значениях) или что оценка байесовских оценок / вероятных интервалов с точки зрения частых пользователей не имеет значения (Я думаю, что это может быть). Нельзя сказать, что классическая / частая статистика бесполезна, потому что это не так. Это то, что есть, и мы не должны пытаться сделать это больше.

Считаете ли вы разумным дать параметру предварительное распределение для представления ваших убеждений о вселенной? По вашим комментариям это звучит так; по моему опыту большинство людей согласятся (это маленькая шутка, которую я сделал в своем комментарии к @G. ответу Джея Кернса). Если это так, то байесовская парадигма обеспечивает логичный, связный способ сделать утверждения о . Частотный подход просто нет.P(θ[L(X),U(X)]|X=x)


1
(+1) очень хорошо сделано, опять же, и место на мертвой точке.

+1 Тот же комментарий, что и выше (см. Ответ Дж. Джея Кернса); это было действительно полезно.
Эллиотт

Щедрость щедрот :) Я рад, что вы нашли это полезным.
JMS

11

Хорошо, теперь вы говорите! Я проголосовал за удаление моего предыдущего ответа, потому что в этом обновленном вопросе нет смысла.

В этом новом, обновленном вопросе с компьютером, который вычисляет 95% доверительные интервалы, согласно ортодоксальной интерпретации часто встречающихся, вот ответы на ваши вопросы:

  1. Нет.
  2. Нет.
  3. Как только интервал наблюдается, он больше не является случайным и не изменяется. (Возможно, интервал был .) Но θ тоже не меняется и никогда не менялся. (Может быть, это θ = 7. ) Вероятность меняется с 95% до 0%, потому что 95% интервалов, которые компьютер вычисляет для покрытия 7, но 100% интервалов [ 1 , 3 ] НЕ охватывают 7.[1,3]θθ=7[1,3]

(Кстати, в реальном мире экспериментатор никогда не знает, что , что означает, что экспериментатор никогда не сможет узнать, покрывает ли истинная вероятность [ 1 , 3 ] θ ноль или единицу. (S) он может только сказать, что это должно быть одно или другое.) Кроме того, экспериментатор может сказать, что 95% компьютерных интервалов покрывают θ , но мы это уже знали.θ=7[1,3]θθ

Дух вашего вопроса продолжает напоминать знания наблюдателя и то, как это связано с тем, где находится . По-видимому, именно поэтому вы говорили о пароле, о том, как компьютер вычисляет интервал, пока вы его не видели, и т . Я видел в комментариях к ответам , что кажется неудовлетворительным / гоже быть обязан совершить 0 или 1, в конце концов, почему мы не могли поверить , что это на 87%, или 15 / 16 , или даже 99% ?? ? Но в этом и заключается сила - и одновременно ахиллесова пята - частотной структуры: субъективное знание / вера наблюдателя не имеет значения. Все, что имеет значение, это долгосрочная относительная частота. Ни больше ни меньше.θ15/16

В заключение: если вы измените свою интерпретацию вероятности (которую вы намеренно решили не делать для этого вопроса), то новые ответы:

  1. Да.
  2. Да.
  3. Вероятность меняется, потому что вероятность = субъективное знание, или степень убежденности, и знания наблюдателя изменились. Мы представляем знания с априорным / апостериорным распределением, и когда новая информация становится доступной, первые превращаются в последние (через правило Байеса).

(Но для полного раскрытия, описанная вами установка не очень хорошо соответствует субъективной интерпретации. Например, у нас обычно есть 95% вероятный интервал до того, как мы включим компьютер, затем мы запускаем его и используем компьютер, чтобы дать нам 95% задний вероятный интервал, который обычно значительно худее, чем предыдущий.)


Очередной раз! :) Отлично сработано.
JMS

3
Я должен только указать, что байесовское понимание вероятности не обязательно субъективно, так что это не является сильной стороной подхода, основанного на частоте. В случае объективного байесовского подхода к «вероятности проблемы приземления монеты» использование неинформативного априора вообще не предполагает субъективности. Реальная сила подхода, основанного на частоте, заключается в таких проблемах, как контроль качества, где естественно говорить о повторных испытаниях и длительных частотах. Сложности возникают только тогда, когда вы задаете вопросы о конкретных событиях.
Дикран Marsupial

@ JMS, спасибо. @Dikran, сложно говорить об этом с 544 символами в маленьком окошке на экране компьютера. Вкратце: я согласен с вами, что слово «байесовский» не является синонимом «субъективного». И нет смысла пытаться понять, в чем действительно заключается сила обоих подходов. Итог: мы все можем договориться о долгосрочной относительной частоте, но чаще всего ваш апостериор будет отличаться от моего.

2
@Dikran Marsupial Вы делаете хорошую мысль. Я бы только добавил, что как только мы переходим от игрушечных проблем к реальному прикладному моделированию, часто случается так, что действительно важная субъективность проявляется в том, как мы определяем вероятность, а не обязательно сами предыдущие распределения (действительно ли эти наблюдения взаимозаменяемы? Гауссовский? и т.д). Таким образом, субъективность встроена в огромную часть статистических данных, основанных на моделях, как байесовских, так и частых.
JMS

+1 Спасибо за красивый ответ. Это определенно заслуживает награды, но чтобы не быть политическим, я в конечном итоге пошел на голосование против.
Эллиотт

6

Я добавлю свои два цента (возможно, переиздание некоторых из предыдущих ответов). Для часто встречающегося доверительный интервал сам по себе является двумерной случайной величиной: если бы вы повторили эксперимент несколько раз, то доверительный интервал, который вы бы оценили (т. Е. Вычисляете по вновь найденным данным каждый раз), будет каждый раз отличаться , Таким образом, две границы интервала являются случайными величинами.

Таким образом, 95% -ный доверительный интервал означает не что иное, как уверенность (учитывая, что все ваши предположения, приводящие к этому КИ, верны), что этот набор случайных величин будет содержать истинное значение (очень частое выражение) в 95% случаев.

Вы можете легко рассчитать доверительный интервал для среднего значения 100 тиражей из стандартного нормального распределения. Затем, если вы нарисуете 10000 умноженных на 100 значений из этого стандартного нормального распределения и каждый раз вычисляете доверительный интервал для среднего значения, вы действительно увидите, что 0 находится там около 9500 раз.

Тот факт , что вы уже создали доверительный интервал только один раз (от фактических данных) действительно уменьшить вероятность истинного значения , находящееся в этом интервале 0 или 1, но это не меняет вероятность доверительного интервала в качестве случайная величина, чтобы содержать истинное значение.

Итак, суть: вероятность любого (то есть в среднем) 95% -ного доверительного интервала, содержащего истинное значение (95%), не изменяется, равно как и вероятность определенного интервала (CI или чего-либо другого) для содержания истинного значения (0 или 1). Вероятность интервала, который компьютер знает, но вы его не знаете, на самом деле равна 0 или 1 (потому что это определенный интервал), но, поскольку вы его не знаете (и, как часто, не можете пересчитать этот же интервал) снова и снова бесконечно много раз из одних и тех же данных), все, что вам нужно - это вероятность любого интервала.


Забавное примечание: средство проверки правописания на этом сайте находит слово часто встречающееся лицо достойным фигурного подчеркивания. Этот сайт тайно освоен байесовцами? О, я думаю, что это не так, поскольку байесианцы имеют свои кудрявые подчеркивания :-)
Ник Сабб,

4

Причина того, что доверительный интервал не определяет «вероятность того, что истинный параметр находится в интервале», заключается в том, что, как только интервал указан, параметр либо лежит в нем, либо нет. Однако, например, для 95% доверительного интервала у вас есть 95% шанс создать доверительный интервал, который содержит значение. Это довольно сложная концепция для понимания, поэтому я не могу сформулировать ее хорошо. См. Http://frank.itlab.us/datamodel/node39.html для дальнейших разъяснений.


2
Предположим, вы программируете компьютер для вычисления доверительного интервала, но вы не смотрите на результат. Прежде чем вы увидели результат, вы знаете, что есть 95% -ная вероятность того, что интервал содержал правильный параметр (точно так же, как до того, как вы увидели результат броска монеты, вы знаете, что 50-процентная вероятность голов). Каким образом последующее рассмотрение выходных данных изменяет эту вероятность, учитывая, что вы в первую очередь не знаете верного параметра (я согласен, что при взгляде на результат броска монеты вероятность головок изменяется с 50% до 1). или 0)?
Эллиотт

Кроме того, хотя я согласен с тем, что есть различие, мне интересно, что не так с моим приведенным выше «аргументом», показывающим, что это одно и то же.
Эллиотт

2
@ Эллиотт Ваши вопросы, кажется, такие же, как эта аналогия: вы подбрасываете честную монету. Следовательно, вероятность появления голов составляет 50%. Теперь вы смотрите на монету и это головы. Как это меняет вероятность появления голов? Ответ в том, что это не так, потому что вероятность относится к процедуре подбрасывания монет, а не к результату. Мне кажется, что контрпример, на который вы ссылаетесь, работает аналогичным образом: процедура может с 50% -ной вероятностью охватить параметр, но после этого оказалось возможным проверить, что параметр действительно покрыт. И что?
whuber

Я не говорю об изменении вероятности, что честная монета будет главой; вместо этого я говорю об изменении вероятности того, что именно эта монета станет головой. После того, как я его перевернул и прежде чем я посмотрел, я бы сказал, что вероятность составляет 50%, потому что примерно половина таких случаев связана с монетой с поднятой головой. С другой стороны, после того, как я посмотрел на нее и увидел головы, 100% таких случаев связаны с монетой с головой вверх (случаи с хвостами были исключены, когда я смотрел на монету и не видел головы).
Эллиотт

Я согласен, что по факту, возможно, будет возможно проверить, что параметр был покрыт. Мой ответ "ну и что?" «Так что мой приведенный выше аргумент (в первоначальном вопросе) должен быть неверным, и мне интересно, что с ним не так»
Эллиотт

4

Я не думаю, что частый участник может сказать, что существует какая-либо вероятность того, что истинное (статистическое) значение статистики лежит в доверительном интервале для конкретной выборки. Это либо есть, либо нет, но для конкретного события не существует длительной частоты, просто совокупность событий, которые вы получили бы при повторном выполнении статистической процедуры. Вот почему мы должны придерживаться таких утверждений, как «95% доверительных интервалов, построенных таким образом, будут содержать истинное значение статистики», а не «есть вероятность, что истинное значение лежит в доверительном интервале, рассчитанном для этого конкретного образец". Это верно для любого значения p, это просто невозможно без частого определения вероятности на самом деле. Байесовский может сделать такое заявление, используя достоверный интервал, хотя.


3

E[a,b]

E~(L(X),U(X))

Изменить: @G. Jay Kerns делает аргумент лучше, чем я, и печатает быстрее, так что, вероятно, просто двигаться дальше :)


[a,b]

2
|

Я не знаю, у тебя есть место. :-)

2

E[a,b]ECCP(E|C)=P(E)P(E|C)=P(E)

P(E|C)=1P(E|C)=0


Учитывая, что я определил C как событие, в котором этот конкретный интервал [a, b] содержит истинный параметр, я не уверен, что согласен с тем, что E и C / C 'независимы: знание того, что C произошло, гарантирует, что E произошло ,
Эллиотт

Но C - это случайная величина! Вы как бы меняете определения всех этих событий после того, как все уже произошло. Другими словами, если вы определяете C как конкретное событие, то C больше не является доверительным интервалом.
raegtin

2
Проблема состоит в том, что если C - это событие, в котором интервал содержит истинный параметр в данном конкретном прогоне эксперимента, он не имеет длительной частоты прогона (этот конкретный прогон может произойти только один раз), и поэтому вы не можете назначить частая вероятность этого. Вот почему определение частого доверительного интервала проводится с точки зрения популяции повторяющихся экспериментов. Похоже, что вы применяете байесовские рассуждения к частым установкам, и существует несоответствие определений вероятности.
Дикран Marsupial

Вот еще один способ взглянуть на это. Вы, похоже, делаете следующее: запустите расчет, чтобы получить доверительный интервал [a, b]. Определите C как событие, в котором этот конкретный доверительный интервал [a, b] содержит истинный параметр. Также определите E как событие, в котором этот конкретный интервал [a, b] содержит истинный параметр. Таким образом, E и C - это одно и то же событие!
raegtin

Это то, что вы на самом деле делаете. Похоже, вы думаете , что делаете следующее (чего не делаете): запустите расчет # 1, чтобы получить интервал [a, b]. Определите E как событие, в котором этот конкретный интервал [a, b] содержит истинный параметр. Затем забудьте о расчете # 1 и определите C как событие, в котором любой другой вычисляемый интервал [a ', b'] содержит истинный параметр. В этом случае E и C независимы.
raegtin

2

Здесь так много длинных объяснений, что у меня нет времени их читать. Но я думаю, что ответ на основной вопрос может быть кратким и приятным. Это разница между вероятностью, которая является безусловной для данных. Вероятность 1-альфа перед сбором данных - это вероятность того, что в четко определенную процедуру будет включен параметр. После того, как вы собрали данные и знаете, что конкретный интервал, который вы сгенерировали, интервал является фиксированным, и, поскольку параметр является константой, условная вероятность равна 0 или 1. Но поскольку мы не знаем фактическое значение параметра даже после сбора данных мы не знаем, какое это значение.

Расширение поста Михаила Черника скопировано из формы комментариев:

в этом есть патологическое исключение, которое можно назвать идеальной оценкой. Предположим, что у нас есть процесс авторегрессии первого порядка, заданный как X (n) = pX (n-1) + en. Он стационарен, поэтому мы знаем, что p не равно 1 или -1 и <1 в абсолютном значении. Теперь en являются независимыми одинаково распределенными со смешанным распределением, есть положительная вероятность q, что en = 0

В этом есть патологическое исключение, которое можно назвать идеальной оценкой. Предположим, что у нас есть процесс авторегрессии первого порядка, заданный как X (n) = pX (n-1) + en. Он является стационарным, поэтому мы знаем, что p не равно 1 или -1 и <1 в абсолютном значении.

Теперь en являются независимыми, одинаково распределенными со смешанным распределением, есть положительная вероятность q, что en = 0, и с вероятностью 1-q оно имеет абсолютно непрерывное распределение (скажем, что плотность является ненулевой в интервале, ограниченном от 0. Тогда Соберите данные из временного ряда последовательно и для каждой последующей пары значений оцените p как X (i) / X (i-1). Теперь, когда ei = 0, отношение будет точно равно p.

Поскольку q больше 0, в конечном итоге отношение будет повторять значение, и это значение должно быть точным значением параметра p, потому что, если это не значение ei, которое не равно 0, повторяется с вероятностью 0 и ei / x (i -1) не повторится.

Таким образом, правило последовательной остановки состоит в том, чтобы производить выборку до тех пор, пока отношение не повторяется в точности, а затем использовать повторное значение в качестве оценки p. Поскольку для любого построенного интервала, равного центру этой оценки, значение p равно вероятности 1 включения истинного параметра. Хотя это патологический пример, который не практичен, существуют стационарные стохастические процессы со свойствами, которые нам требуются для распределения ошибок


2
Вы рассматривали вопрос о добавлении примера, описанного в ходе этих нескольких комментариев, в свой ответ?
Макрос

@ Майкл Я второй комментарий Макро. Обратите внимание, что комментарии обычно рассматриваются как способ взаимодействия с другими пользователями (например, при запросе разъяснений и т. Д.), И в любом случае иногда рассматриваются как « граждане третьего класса в системе обмена стеками ». Однако после нашего последнего обмена я позволю вам решить, как поступить с этой серией комментариев. Это замечание относится к другой серии комментариев, найденных здесь .
chl

Я не пишу комментарии в ответах, потому что, похоже, существует политика, направленная на то, чтобы понизить число ответов, в которых обсуждается много вопросов, особенно когда кто-то считает, что ответ на самом деле не отвечает на вопрос. Так что ответы дают ответы, а комментарии идут под комментариями. Мои комментарии, как правило, превышают лимит символов, поэтому я использую несколько.
Майкл Черник

@MichaelChernick Нет такой политики, поэтому я включил ваши комментарии в пост.

1
@MichaelChernick, я публикую на этом сайте довольно регулярно в течение года, и я никогда не слышал, чтобы кто-то говорил, что модераторы жестоки или что правила сайта вводят в заблуждение. Проблемы, с которыми вы столкнулись: ваши посты - это те вещи, которые подробно обсуждаются в FAQ.
Макрос

1

Два замечания о многих вопросах и ответах, которые могут помочь до сих пор.

Частично путаница возникает из-за того, что она затмила какую-то более глубокую математику теории вероятностей, которая, между прочим, не стояла на прочной математической основе примерно до 1940-х годов. Он попадает в то, что составляет выборочные пространства, вероятностные пространства и т. Д.

Во-первых, вы заявили, что после подбрасывания монеты мы знаем, что существует 0% вероятности, что он не достигнет цели, если выпадет головой. В этот момент не имеет смысла говорить о вероятности; что случилось, то случилось, и мы это знаем. Вероятность заключается в неизвестном в будущем, а не в настоящем.

В качестве небольшого следствия того, что на самом деле означает нулевая вероятность, рассмотрим это: мы предполагаем, что при правильном подсчете вероятность появления голов составляет 0,5, а хвостов - 0,5. Это означает, что у него есть 100% -ный шанс подняться либо головой, либо хвостом, так как эти результаты являются MECE (взаимоисключающими и полностью исчерпывающими). Тем не менее, он имеет нулевой процент изменения составления голов и хвостов : наше представление о «головах» и «хвостах» заключается в том, что они взаимоисключающие. Таким образом, это имеет нулевой процентный шанс, потому что это невозможно в том смысле, как мы думаем (или определяем) «подбрасывание монеты». И это невозможно до и после жеребьевки.

В качестве дополнительного следствия к этому, все , что не является, по определению, невозможно это возможно, В реальном мире я ненавижу, когда адвокаты спрашивают: «Разве не возможно, что вы подписали этот документ и забыли об этом?» потому что ответ всегда "да" по природе вопроса. В этом отношении ответ также «да» на вопрос «разве не возможно, что вы были перенесены через дематериализацию на планету Ремулак 4 и вынуждены что-то сделать, а затем переместились обратно, не помня об этом?». Вероятность может быть очень низкой, но то, что не невозможно, возможно. В нашей обычной концепции вероятности, когда мы говорим о подбрасывании монеты, она может всплыть; это может подняться хвосты; и он может даже стоять на месте или (каким-то образом, например, если бы мы пробрались в космический корабль во время накачки и выведения на орбиту) навсегда взлететь в воздух. Но до или после жеребьевки Хвосты в то же время: они являются взаимоисключающими результатами в выборочном пространстве эксперимента (посмотрите «вероятностные выборочные пространства» и «сигма-алгебры»).

Во-вторых, при всей этой философии Байеса / Фраутиста о доверительных интервалах, это правда, что это относится к частотам, если кто-то действует как частик. Таким образом, когда мы говорим, что доверительный интервал для выборочного и расчетного среднего составляет 95%, мы не говорим, что мы на 95% уверены, что «реальное» значение лежит между границами. Мы говорим, что, если бы мы могли повторять этот эксперимент снова и снова, в 95% случаев мы бы обнаружили, что среднее значение действительно находится между границами. Однако, когда мы делаем это одним прогоном, мы берем умственное решение и говорим: «Мы на 95% уверены, что мы правы».

Наконец, не забывайте, что стандартная установка находится на тесте гипотезы, основанном на эксперименте. Если мы хотим знать, заставляет ли гормон роста растений расти быстрее, возможно, мы сначала определим средний размер томата после 6 месяцев роста. Затем мы повторяем, но с гормоном, и получаем средний размер. Наша нулевая гипотеза - «гормон не работает», и мы проверяем это . Но если тестируемые растения в среднем крупнее с вероятностью 99%, это означает, что «всегда будут случайные колебания из-за растений и точности нашего взвешивания, но количество случайностей, объясняющих это, будет меньше одного». раз в сто ".


1

Эту проблему можно охарактеризовать как смешение априорной и последующей вероятности или, может быть, неудовлетворенность незнанием совместного распределения определенных случайных величин.

кондиционирование

n1nXYXYP(X=xY=y)=1/(n(n1))x,yN:={1,,n}xyP(X=x)=1/nP(Y=x)=1/nxN

tP(X=x)=1/nxNxNX=xP(X=x|Y=t)=P(X=xY=t)/P(Y=t)xt1/(n1)x=t0X=xY=tX=xX=xY=tP(X=x)=P(Y=x)=1/nxN

Не обусловливание доказательств означает игнорирование доказательств. Однако мы можем только обусловить то, что выразимо в вероятностной модели. В нашем примере с двумя шарами из урны мы не можем зависеть от погоды или от того, что мы чувствуем сегодня. В случае, если у нас есть основания полагать, что это свидетельство, имеющее отношение к эксперименту, мы должны сначала изменить нашу модель, чтобы позволить нам выразить это свидетельство как формальные события.

CC=1X<YP(C=1)=1/2tP(C=1|Y=t)=(t1)/(n1)P(C=1|Y=1)=0C=1P(C=1|Y=n)=1C=1P(C=1)=1/2

Доверительный интервал

X=(X1,,Xn)n(l,u)γXluRnθRP(l(X)θu(X))γ

C(l,u)C=1l(X)θu(X)P(C=1)γ

x=(x1,,xn)RnxiXiiC=1δ:=P(C=1|X=x)01(C=1X=x)((l(x)θu(x))X=x)l(x)θu(x)δ=0l(x)θu(x)X=xδ=1l(x)u(x)xδ{0,1}

P(C=1)γC=1x[l(x),u(x)][l(x),u(x)]θγ, будет означать признание этого доказательства и в то же время игнорирование его.

Учиться больше, меньше знать

δXYxRP(X=x)P(Y=x)P(X=xY=y)x,yR(X,Y)

Y=7XP(X=x)x(x,7)xRxP(X=x)Y=7Y=77P(X=x)X=xP(X=x|Y=7)=P(X=xY=7)/P(Y=7)

YX


0

Если я скажу, что вероятность того, что Никс набрал между xbar - 2sd (x) и xbar + 2sd (x), составляет около 0,95 в некоторых играх в прошлом, то это разумное утверждение, учитывая некоторые особые предположения о распределении баскетбольных результатов. , Если я соберу данные об оценках для некоторой выборки игр и вычислю этот интервал, вероятность того, что они забили в этом интервале в определенный день в прошлом, явно равна нулю или единице, и вы можете узнать результаты игры в Google. Единственное представление о том, что частоту следует поддерживать ненулевой или одной вероятностью, происходит из повторной выборки, а реализация оценки интервала для конкретной выборки является той магической точкой, где она произошла или не дала интервальную оценку этой выборки. , Это не точка, где вы вводите пароль,

Это то, что Дикран утверждает выше, и я проголосовал за его ответ. Точка, в которой повторные выборки не рассматриваются, является точкой в ​​парадигме частых случаев , когда недискретная вероятность становится недоступной , а не когда вы вводите пароль, как в приведенном выше примере, или когда вы гуглите результат в моем примере Игра Knicks, но точка, когда ваше количество образцов = 1.


0

моделирование

S=(Ω,Σ,P)EΣP(E)ESS

Шаг (1) может позволить некоторую свободу действий. Уместность моделирования иногда можно проверить, сравнивая вероятность определенных событий с тем, что мы ожидаем интуитивно. В частности, рассмотрение определенных предельных или условных вероятностей может помочь понять, насколько уместно моделирование.

X1,,XnDist(θ)θR

Оценка доверительного интервала

γLRRnP(L(X)θR(X))γX=(X1,,Xn)L(X)R(X)xRnL(x)θR(x)

предпочтения

γ1γ2γ1<γ2более высокая вероятность быть выигрышным билетом, чем первый, когда они разыгрывались. Предпочтение в отношении различных наблюдений (два тикета в этих примерах), основанных на вероятностных свойствах случайных процессов, которые произвели наблюдения, прекрасно. Обратите внимание, что мы не говорим, что любой из билетов имеет более высокую вероятность быть выигрышным. Если мы когда-нибудь скажем так, то с «вероятностью» в разговорном смысле, который может означать что угодно, поэтому лучше избегать здесь.

0.95

Пример с простым приором

θP(θ=0)=P(θ=1)=1/2ϑRθ=ϑX1,,XnN(ϑ,1)L,RγϑRP(L(X)ϑR(X)|θ=ϑ)γP(L(X)θR(X))γ

xRn(X1,,Xn)θL(x)R(x)P(L(x)θR(x)|X=x)fμnμσ=1

P(L(x)θR(x)|X=x)={f0(x)f0(x)+f1(x)if L(x)0R(x)<1f1(x)f0(x)+f1(x)if 0<L(x)1R(x)1if L(x)0 and 1R(x)0else
γθL(X)θR(X)γ

θxx{μ0,μ1}={0,1}

P(θ=μ0|X=x)=fμ0(x)fμ0(x)+fμ1(x)

0

Если бы мы могли сказать «вероятность того, что истинный параметр находится в этом доверительном интервале», то мы бы не приняли во внимание размер выборки. Независимо от того, насколько велика выборка, если среднее значение одинаково, доверительный интервал будет одинаково широким. Но когда мы говорим «если я повторю это 100 раз, то я ожидаю, что в 95 случаях истинный параметр будет лежать в пределах интервала», мы учитываем размер выборки и насколько наша оценка , Чем больше размер выборки, тем меньше будет средняя оценка. Так что он не будет сильно меняться, и когда мы повторяем процедуру 100 раз, нам не нужен большой интервал, чтобы убедиться, что в 95 случаях истинный параметр находится в интервале.


Имейте в виду, что доверительный интервал является частым понятием.
Майкл Черник
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.