Обновление : с учетом ретроспективного взгляда на несколько лет я написал более сжатую трактовку по существу того же материала в ответ на аналогичный вопрос.
Как построить доверительный регион
Начнем с общего метода построения доверительных областей. Его можно применять к одному параметру, чтобы получить доверительный интервал или набор интервалов; и его можно применять к двум или более параметрам, чтобы получить более высокие размерные доверительные области.
Мы утверждаем, что наблюдаемая статистика D происходит из распределения с параметрами θ , а именно распределения выборки s(d|θ) по возможной статистике d , и ищем доверительную область для θ в наборе возможных значений Θ . Определить область с наивысшей плотностью (HDR): h -HDR PDF - это наименьшее подмножество его домена, поддерживающее вероятность h . Обозначим h -HDR s(d|ψ) как Hψ для любого ψ∈Θ . Тогдаh доверительная область дляθ учетом данныхD является множествомCD={ϕ:D∈Hϕ} . Типичное значениеh будет 0,95.
Частая интерпретация
Из предыдущего определения доверительной области следует
d∈Hψ⟷ψ∈Cd
с Cd={ϕ:d∈Hϕ} . Теперь представьте себе большой набор ( воображаемые ) наблюдения {Di} , взятый при аналогичных обстоятельствах D . т.е. они являются образцами из s(d|θ) . Так как Hθ поддерживает вероятностную массу h PDF s(d|θ) ,P(Di∈Hθ)=h для всехi . Следовательно, доля{Di} для которойDi∈Hθ равнаh . Итак, используя приведенную выше эквивалентность, доля{Di} для которойθ∈CDi , также равнаh .
Это то, что частое требование для h доверительной области для θ составляет:
Возьмет большое количество мнимых наблюдений {Di} от выборочного распределения s(d|θ) , что привело к наблюдаемой статистике D . Тогда θ лежит в пределах доли h от аналогичных, но мнимых доверительных областей {CDi} .
Поэтому доверительная область CD не претендует на вероятность того, что θ где-то лежит! Причина в том, что в этой формулировке нет ничего, что позволяло бы говорить о распределении вероятностей по θ . Интерпретация просто сложная надстройка, которая не улучшает базу. Основой являются только s(d|θ) и D , где θ не отображается как распределенная величина, и мы не можем использовать эту информацию для решения этой проблемы. Есть два основных способа получить распределение по θ :
- Назначьте распределение непосредственно из имеющейся информации: p(θ|I) .
- Отнесите θ к другой распределенной величине: p(θ|I)=∫p(θx|I)dx=∫p(θ|xI)p(x|I)dx .
В обоих случаях θ должен появиться где-то слева. Частые пользователи не могут использовать ни один из этих методов, потому что они оба требуют еретического априора.
Байесовский вид
Максимум, что байесовец может сделать из h доверительной области CD , заданной без уточнения, - это просто прямая интерпретация: то, что это множество ϕ для которого D попадает в h -HDR Hϕ распределения выборки s(d|ϕ) . Это не обязательно говорит нам много о θ , и вот почему.
Вероятность того, что θ∈CD , учитывая D и справочную информацию I , равна:
P(θ∈CD|DI)=∫CDp(θ|DI)dθ=∫CDp(D|θI)p(θ|I)p(D|I)dθ
Заметьте, что, в отличие от частотной интерпретации, мы немедленно потребовали распределение поθ. Исходная информация, которуюI, как и прежде, говорит нам, что распределение выборкиs(d|θ):
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)p(D|I)dθ=∫CDs(D|θ)p(θ|I)dθp(D|I)=∫CDs(D|θ)p(θ|I)dθ∫s(D|θ)p(θ|I)dθ
Теперь это выражение в общем случае не оценивается какh, то естьhдоверительная областьCDне всегда содержитθс вероятностьюh. На самом деле это может сильно отличаться отh. Есть, однако, многие распространенные ситуациив которых онделаетоценить вh, поэтому доверительные часто согласуются с нашей вероятностной интуицией.
Например, предположим, что предыдущий объединенный PDF d и θ является симметричным в том смысле , что pd,θ(d,θ|I)=pd,θ(θ,d|I) . (Понятно, что это предполагает предположение о том, что PDF распространяется на одну и ту же область по d и θ .) Тогда, если приоритет равен p(θ|I)=f(θ) , имеем s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D) . Следовательно,
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(θ|D)dθ∫s(θ|D)dθ=∫CDs(θ|D)dθ
From the definition of an HDR we know that for any ψ∈Θ
∫Hψs(d|ψ)ddand therefore that∫HDs(d|D)ddor equivalently∫HDs(θ|D)dθ=h=h=h
Therefore, given that s(d|θ)f(θ)=s(θ|d)f(d), CD=HD implies P(θ∈CD|DI)=h. The antecedent satisfies
CD=HD⟷∀ψ[ψ∈CD↔ψ∈HD]
Applying the equivalence near the top:
CD=HD⟷∀ψ[D∈Hψ↔ψ∈HD]
Thus, the confidence region CD contains θ with probability h if for all possible values ψ of θ, the h-HDR of s(d|ψ) contains D if and only if the h-HDR of s(d|D) contains ψ.
Now the symmetric relation D∈Hψ↔ψ∈HD is satisfied for all ψ when s(ψ+δ|ψ)=s(D−δ|D) for all δ that span the support of s(d|D) and s(d|ψ). We can therefore form the following argument:
- s(d|θ)f(θ)=s(θ|d)f(d)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)] (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]⟶∀ψ[D∈Hψ↔ψ∈HD]
- ∴∀ψ[D∈Hψ↔ψ∈HD]
- ∀ψ[D∈Hψ↔ψ∈HD]⟶CD=HD
- ∴CD=HD
- [s(d|θ)f(θ)=s(θ|d)f(d)∧CD=HD]⟶P(θ∈CD|DI)=h
- ∴P(θ∈CD|DI)=h
Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ), given a sample mean x¯ from n measurements. We have θ=μ and d=x¯, so that the sampling distribution is
s(d|θ)=n−−√σ2π−−√e−n2σ2(d−θ)2
Suppose also that we know nothing about θ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((d−θ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δ−ψ)2)=g(δ2)ands(D−δ|D)=g((D−δ−D)2)=g(δ2)so that∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θ lies in the confidence interval CD is h!
We therefore have an amusing irony:
- The frequentist who assigns the h confidence interval cannot say that P(θ∈CD)=h, no matter how innocently uniform θ looks before incorporating the data.
- The Bayesian who would not assign an h confidence interval in that way knows anyhow that P(θ∈CD|DI)=h.
Final Remarks
We have identified conditions (i.e. the two premises) under which the h confidence region does indeed yield probability h that θ∈CD. A frequentist will baulk at the first premise, because it involves a prior on θ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θ∈CD|DI) equals h. Equally though, there are many circumstances in which P(θ∈CD|DI)≠h, especially when the prior information is significant.
We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics D. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}, rather than x¯. Oftentimes, collapsing the raw data into summary statistics D destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θ.