Когда доверительные интервалы полезны?


30

Если я правильно понимаю, доверительный интервал параметра - это интервал, построенный методом, который дает интервалы, содержащие истинное значение для определенной доли выборок. Таким образом, «достоверность» относится к методу, а не к интервалу, который я вычисляю из конкретной выборки.

Как пользователь статистики, я всегда чувствовал себя обманутым, поскольку пространство всех выборок является гипотетическим. Все, что у меня есть, это один образец, и я хочу знать, что этот образец говорит мне о параметре.

Это суждение неверно? Существуют ли способы просмотра доверительных интервалов, по крайней мере, при некоторых обстоятельствах, которые были бы полезны для пользователей статистики?

[Этот вопрос возникает из раздумий после исключения доверительных интервалов в ответе math.se https://math.stackexchange.com/questions/7564/calculation-a-sample-size-based-on-a-confidence-level/7572 # 7572 ]

Ответы:


15

Мне нравится думать о КИ как о каком-то способе избежать фреймворка Hypothesis Testing (HT), по крайней мере бинарного фреймворка принятия решений, следуя подходу Неймана , и каким-то образом придерживаться теории измерения. Точнее, я рассматриваю их как более близкие к достоверности оценки (например, разницу в средствах), и наоборот, HT ближе к гипотезо-дедуктивному рассуждению с его подводными камнями (мы не можем принять ноль, альтернатива часто стохастик и т. д.). Тем не менее, как с оценкой интервала, так и с HT, большую часть времени мы должны полагаться на предположения о распределении (например, распределение выборки при ), что позволяет сделать вывод из нашей выборки в общую популяцию или репрезентативную (по крайней мере, частый подход).ЧАС0

Во многих контекстах CI дополняют обычные HT, и я рассматриваю их как на следующем рисунке (он находится под ):ЧАС0

альтернативный текст

то есть в рамках HT (слева) вы смотрите на то, как далеко ваша статистика от нуля, в то время как с помощью CI (справа) вы смотрите на нулевой эффект "из вашей статистики", в определенном смысле.

Также обратите внимание, что для определенного вида статистики, такой как отношение шансов, HT часто бессмысленны, и лучше взглянуть на связанный с ним CI, который является асимметричным, и предоставить более релевантную информацию относительно направления и точности ассоциации, если таковые имеются.


Почему вы говорите, что проверки гипотез часто бессмысленны для отношений шансов, больше, чем любая другая оценка эффекта? Вместо этого я бы подчеркнул, что доверительные интервалы более полезны, чем стандартные ошибки для отношений шансов и других оценок с асимметричным распределением выборок в конечных выборках.
2010 г.

@onestop Ну, я отчасти думал о том, что вы говорите о «асимметричном распределении выборки ...» (и, кажется, мне это не так ясно), а также о том, что в эпидемиологических исследованиях мы, как правило, больше всего заинтересованы в КИ (что насколько точна наша оценка) чем HT.
ЧЛ

+1. Это напоминает мне, что я использую ваши сценарии, чтобы выучить асимптоту, прыгая и меняя вещи, пробуя разные вещи. Еще раз спасибо за это, очень полезно для начала.
АРС

@ars На самом деле, я помню, что эта фотография была сделана с помощью PStricks. В любом случае, хорошей отправной точкой для Asymptote является piprime.fr/asymptote .
ЧЛ

@ CHL, это может быть не по теме, но не могли бы вы сказать мне, если вы сделали эти графики в R?
Suncoolsu

7

Альтернативный подход, относящийся к вашему второму вопросу: «Существуют ли способы проверки доверительных интервалов, по крайней мере, в некоторых обстоятельствах, которые были бы полезны для пользователей статистики?»:

Вы должны взглянуть на байесовский вывод и полученные вероятные интервалы . Доверительный интервал 95% можно интерпретировать как интервал, который, по вашему мнению, имеет 95% вероятности включения истинного значения параметра. Цена, которую вы платите, заключается в том, что вам нужно предварительно распределить вероятности по значениям, которые, по вашему мнению, может принять истинный параметр, до сбора данных. И ваш предыдущий может отличаться от предыдущего, поэтому ваши вероятные интервалы также могут отличаться, даже если вы используете те же данные.

Это только моя быстрая и грубая попытка подвести итог! Хороший недавний учебник с практической направленностью:

Эндрю Гельман, Джон Б. Карлин, Хэл С. Стерн и Дональд Б. Рубин. «Байесовский анализ данных» (2-е издание). Chapman & Hall / CRC, 2003. ISBN 978-1584883883


Спасибо. Но как быть с частыми доверительными интервалами? Есть ли какие-либо обстоятельства, где они были бы актуальны?
Джотирмой Бхаттачарья

Я полагаю, что иметь разные приоры - это не проблема (по крайней мере, с объективной байесовской точки зрения), если случается, что у вас разные знания о ситуации под рукой. Мы должны видеть приоры как способ передачи нашей априорной информации. Я знаю, что это не просто ...
teucer

@Jyotirmoy По поводу байесовских и частых подходов, здесь были сделаны интересные замечания
chl

6

Я думаю, что предпосылка этого вопроса ошибочна, потому что она отрицает различие между неопределенным и известным .

Описание броска монеты дает хорошую аналогию. До того, как монета перевернута, результат неясен; после этого он больше не является «гипотетическим». Смешение этого свершившегося факта с фактической ситуацией, которую мы хотим понять (поведение монеты или решения, которые должны быть приняты в результате ее исхода), по существу отрицает роль вероятности в понимании мира.

Этот контраст бросается в резкий рельеф в экспериментальной или регулирующей области. В таких случаях ученый или регулирующий орган знают, что они столкнутся с ситуациями, результаты которых в любое время заранее неизвестны, однако они должны принять важные решения, такие как планирование эксперимента или установление критериев для использования при определении соответствия правилам. (для тестирования на наркотики, безопасности на рабочем месте, экологических стандартов и т. д.). Эти люди и учреждения, в которых они работают, нуждаются в методах и знаниях вероятностных характеристик этих методов для разработки оптимальных и надежных стратегий, таких как хорошие экспериментальные планы и процедуры справедливого решения, которые допускают как можно меньше ошибок.

Доверительные интервалы, несмотря на их классически плохое обоснование, вписываются в эту теоретико-решающую структуру. Когда метод построения случайного интервала имеет комбинацию хороших свойств, таких как обеспечение минимального ожидаемого охвата интервала и минимизация ожидаемой длины интервала - оба они априорные свойства, а не апостериорные - тогда более долгая карьера использования этого метода позволяет минимизировать затраты, связанные с действиями, указанными этим методом.


Приведите пример использования доверительного интервала для принятия решения. Или, что еще лучше, сравните два доверительных интервала и то, как вы будете принимать разные решения с каждым из них, при этом полностью соблюдая частые рамки.
BrainPermafrost

@Brain Любой вводный учебник статистики предоставит такие примеры. Тот, кто беззастенчиво часто встречается, - это Freedman, Pisani и Purves, Statistics (любое издание).
whuber

6

Вы правы, говоря, что 95% доверительные интервалы - это вещи, которые являются результатом использования метода, который работает в 95% случаев, а не любого отдельного интервала с вероятностью 95%, содержащего ожидаемое значение.

«Логическая основа и интерпретация доверительных границ, даже сейчас, являются предметом споров». {Дэвид Колкхоун, 1971, лекции по биостатистике}

Эта цитата взята из учебника по статистике, изданного в 1971 году, но я бы сказал, что он по-прежнему верен в 2010 году. Противоречие, вероятно, является наиболее экстремальным в случае доверительных интервалов для биномиальных пропорций. Существует много конкурирующих методов для вычисления этих доверительных интервалов, но все они неточны в одном или нескольких смыслах, и даже у самого худшего метода есть сторонники среди авторов учебников. Даже так называемые «точные» интервалы не дают ожидаемых свойств доверительных интервалов.

В статье, написанной для хирургов (широко известных своим интересом к статистике!), Джон Лудбрук и я выступали за рутинное использование доверительных интервалов, рассчитанных с использованием равномерного байесовского априора, потому что такие интервалы обладают такими же частыми свойствами, как и любой другой метод (в среднем ровно 95% охват во всех истинных пропорциях), но, что важно, гораздо лучший охват во всех наблюдаемых пропорциях (ровно 95% охват). Документ, из-за своей целевой аудитории, не очень детализирован и поэтому может не убедить всех статистиков, но я работаю над последующим документом с полным набором результатов и обоснований.

Это тот случай, когда байесовский подход обладает такими же частыми свойствами, как и подход, основанный на частоте, что происходит довольно часто. Предположение о единообразном априоре не является проблематичным, потому что равномерное распределение пропорций населения встроено в каждый расчет частоты, который я встречал.

Вы спрашиваете: «Есть ли способы взглянуть на доверительные интервалы, по крайней мере, при некоторых обстоятельствах, которые были бы полезны для пользователей статистики?» Мой ответ, таким образом, заключается в том, что для биномиальных доверительных интервалов можно получить интервалы, которые содержат долю населения ровно 95% времени для всех наблюдаемых пропорций. Это да. Тем не менее, обычное использование доверительных интервалов предполагает охват всех пропорций населения, и для этого ответ "Нет!"

Длина ответов на ваш вопрос и различные ответы на них позволяют предположить, что доверительные интервалы широко понимаются неправильно. Если мы изменим нашу цель с охвата для всех истинных значений параметров на охват истинного значения параметра для всех значений выборки, это может стать проще, потому что тогда интервалы будут формироваться так, чтобы они были непосредственно связаны с наблюдаемыми значениями, а не с производительностью метод как таковой.


5

Это отличная дискуссия. Я чувствую, что байесовские вероятные интервалы и интервалы поддержки вероятности - это путь, а также байесовские апостериорные вероятности событий, представляющих интерес (например, препарат эффективен). Но замена P-значений с доверительными интервалами является серьезным преимуществом. Практически в каждом номере лучших медицинских журналов, таких как NEJM и JAMA, есть реферат с проблемой «отсутствие доказательств не является доказательством отсутствия» в их рефератах. Использование доверительных интервалов в значительной степени предотвратит такие ошибки. Отличный небольшой текст http://www.amazon.com/Statistics-Confidence-Intervals-Statistical-Guidelines/dp/0727913751


3

Чтобы ответить на ваш вопрос напрямую: предположим, что вы рассматриваете возможность использования машины для наполнения коробки для хлопьев определенным количеством хлопьев. Очевидно, что вы не хотите переполнять / не заполнять поле. Вы хотите оценить надежность машины. Вы выполняете серию тестов следующим образом: (a) Используйте машину, чтобы заполнить коробку, и (b) Измерьте количество хлопьев, которые заполняются в коробке.

Используя собранные данные, вы строите доверительный интервал для количества хлопьев, которое машина, вероятно, заполнит в коробке. Этот доверительный интервал говорит нам о том, что полученный интервал с вероятностью 95% будет содержать действительное количество хлопьев, которые машина поместит в коробку. Как вы говорите, интерпретация доверительного интервала основана на гипотетических, невидимых выборках, сгенерированных рассматриваемым методом. Но это именно то, что мы хотим в нашем контексте. В приведенном выше контексте мы будем использовать машину несколько раз, чтобы заполнить коробку, и, таким образом, мы заботимся о гипотетических, невидимых реализациях количества хлопьев, которые машина заполняет в коробке.

Чтобы абстрагироваться от вышеприведенного контекста: доверительный интервал дает нам гарантию, что, если бы нам пришлось многократно использовать исследуемый метод (в приведенном выше примере метод = машина), существует 95% вероятность того, что доверительный интервал будет иметь истинный параметр ,


2
μσ2μ

1
@Jyotirmoy Конечно, конкретный КИ может быть неудачным. Другими словами, есть 5% -ная вероятность того, что CI не содержит истинного значения. Тем не менее, интерпретация, которую я дал, согласуется с тем, как на самом деле создаются КИ. Мы представляем, что используем этот метод несколько раз, и строим CI так, чтобы вероятность того, что наблюдаемый CI содержит истинное значение, составляет 0,95. Обратите внимание, что в моем ответе ничего не говорится о вероятности того, где на самом деле лежит истинное значение, поскольку это утверждение может быть сделано только с достоверными интервалами, а не с доверительными интервалами.

1
@Jyotirmoy Нижние / Верхние оценки для (100-α)ЧАС0TZ

@Srikant. Я, возможно, неправильно понял "method = machine" в ответе. Я думал, что вы говорите, что 95% всех коробок, выходящих из сборочной линии, будут иметь весовые коэффициенты в пределах 95% доверительного интервала, полученного из конкретного образца коробок.
Джотирмой Бхаттачарья
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.