Как неправильный априор может привести к правильному заднему распределению?


22

Мы знаем, что в случае правильного предварительного распределения,

P(θX)=P(Xθ)P(θ)P(X)

P(Xθ)P(θ) .

Обычное обоснование этого шага состоит в том, что предельное распределение X , P(X) , является постоянным по отношению к θ и, таким образом, может быть проигнорировано при получении апостериорного распределения.

Тем не менее, в случае неправильного априора, как вы узнаете, что апостериорное распределение действительно существует? Кажется, в этом, казалось бы, круговом аргументе чего-то не хватает. Другими словами, если я предполагаю, что апостериор существует, я понимаю механизм получения апостериорного, но, похоже, мне не хватает теоретического обоснования того, почему он вообще существует.

PS Я также признаю, что есть случаи, когда неправильный априор приводит к неправильному заднему.

Ответы:


16

Мы обычно принимаем постериоры от неправильных априорных значений если π ( X θ ) π ( θ )π(θ) существует и является допустимым распределением вероятности (т. е. оно интегрируется точно в 1 по носителю). По существу это сводится кπ(X)=π(Xθ)π(θ)

π(Xθ)π(θ)π(X)
конечно. Если это так, то мы называем эту величину π ( θ X ) ипринимаемее в качестве апостериорного распределения, которое мы хотим. Тем не менее, важно отметить, что это не апостериорное распределение и не условное распределение вероятностей (эти два термина являются синонимами в данном контексте).π(X)=π(Xθ)π(θ)dθπ(θX)

Теперь я сказал, что мы принимаем «апостериорные» распределения от неправильных априорных данных, учитывая вышесказанное. Причина, по которой они приняты, заключается в том, что предыдущий все равно даст нам относительные «баллы» в пространстве параметров; т.е. отношение π ( θ 1 )π(θ) привносит смысл в наш анализ. Значение, которое мы получаем от неправильных приоров в некоторых случаях, может быть недоступно для правильных приоров. Это потенциальное обоснование их использования. См. Ответ Серхио для более тщательного изучения практической мотивации неподходящих приоров.π(θ1)π(θ2)

Стоит отметить, что эта величина также обладает желаемыми теоретическими свойствами, Degroot & Schervish :π(θX)

Неправильные априоры не являются истинными вероятностными распределениями, но если мы притворимся, что они есть, мы вычислим апостериорные распределения, которые аппроксимируют исходные значения, которые мы получили бы, используя надлежащие сопряженные априорные значения с экстремальными значениями предыдущих гиперпараметров.


Я смущен несколькими вещами в вашем ответе. Вы говорите, что мы принимаем постеры, если вышеизложенное конечно. Означает ли это, что если этот интеграл не конечен, апостериорный не будет конечным? Кроме того, вы, кажется, подразумеваете, что мы используем апостериор в этом случае, но это не реальное распределение - так ли это? разве нет случаев, когда это реальное распространение? Кроме того, какое отношение это имеет к числу приоров? Я не вижу связи.
Бен Элизабет Уорд

@BenElizabethWard Если существует, то интеграл π ( X ) должен существовать (и, следовательно, быть конечным). Противоположное также верно: если π ( X ) не существует (бесконечно), то π ( θ X ) не существует. Когда оно существует и является допустимым распределением вероятностей, π ( θ X ) является распределением вероятностей. Однако это не апостериорное распределение для π ( θ ) с заданной вероятностью данныхπ(θX)π(X)π(X)π(θX)π(θX)π(θ) . Апостериора для этого априора не существует. Мы принимаем π ( θ X ) в нашем анализе, потому что это приближение. π(Xθ)π(θX)

1
@BenElizabethWard Отношение использовалось, чтобы продемонстрировать, что предыдущий все еще содержит полезную информацию, которую мы не могли бы загрузить в надлежащий априорный. Я отредактирую свой ответ, чтобы включить это.

2
@jsk не является распределением вероятностей, но определение апостериорного распределения требует, чтобы π ( θ ) было распределением вероятностей, поэтому обманывать, называть π ( θ X ) апостериорным распределением, когда это распределение вероятностей. Degroot и Schervish говорят: «... мы вычислим апостериорные распределения, которые…», согласно которым они предполагают, что вы согласились «притвориться, что они [неправильные априоры] являются [правильными априорами]», как было сказано ранее в цитате. π(θ)π(θ)π(θX)

1
Чтобы ваш ответ был полным и автономным, чтобы будущие читатели не читали этот обмен комментариями, вы хотите обновить свой ответ?
Jsk

9

Есть «теоретический» ответ и «прагматичный».

С теоретической точки зрения, когда априор неправильный, апостериор не существует (хорошо, посмотрите на ответ Мэтью для более громкого высказывания), но он может быть аппроксимирован ограничительной формой.

Если данные включают в себя условно выбранную выборку из распределения Бернулли с параметром , и θ имеет бета-распределение с параметрами α и β , апостериорное распределение θ является бета-распределением с параметрами α + s , β + n - s ( n наблюдения, ˙s успехи) и его среднее значение ( α + s ) / ( α + β + п )θθαβθα+s,β+nsns(α+s)/(α+β+n), Если мы используем распределение неправильной (и нереальная) беты перед с предыдущим hypeparameters , и вид , что П ( & thetas ; ) & alpha ; & thetas ; - 1 ( 1 - θ ) n - s - 1 , т.е. pdf бета-распределения с параметрами s и n - sα=β=0 , мы получаем правильный апостериор, пропорциональный θ s - 1 (π(θ)θ1(1θ)1θs1(1θ)ns1snsза исключением постоянного фактора. Это предельная форма апостериора для бета-версии с параметрами и β 0 (Degroot & Schervish, пример 7.3.13).α0β0

В нормальной модели со средним значением , известной дисперсией σ 2 и предварительным распределением N ( μ 0 , τ 2 0 ) для θ , если предыдущая точность 1 / τ 2 0 мала по сравнению с точностью данных, n / σ 2 , то апостериорное распределение примерно такое, как если бы τ 2 0 = : p ( θ x ) N ( θ ˉθσ2N(μ0,τ02)θ1/τ02n/σ2τ02= т. е. апостериорное распределение примерно такое же, как если бы

p(θx)N(θx¯,σ2/n)
пропорционально константе для θ ( - , p(θ) , распределение, которое не является строго возможным, но является предельной формой апостериорного приприближении τ 2 0 к существует (Gelman et al., p. 52).θ(,)τ02

С "прагматической" точки зрения, при р ( х | θ ) = 0 независимо от р ( θ ) есть, так что если р ( х | θ ) 0 в ( , б ) , тогда p(xθ)p(θ)=0p(xθ)=0p(θ)p(xθ)0(a,b) . Неправильные априорные значения могут использоваться для представлениялокальногоповедения предшествующего распределения в области, где вероятность является значительной, скажем, ( a , b ) . Предполагая, что в достаточном приближении априор следует следующим формам, таким как f ( x ) = k , x ( - , ) или fp(xθ)p(θ)dθ=abp(xθ)p(θ)dθ(a,b)f(x)=k,x(,)f(x)=kx1,x(0,)(a,b)θU(,)(a,b)θU(a,b)p(xθ)p(θ)=p(xθ)kp(xθ)


Можете ли вы сказать больше о том, почему он не существует с теоретической точки зрения?
Jsk

Я не мог объяснить лучше, чем Мэтью в его ответе и в его комментариях.
Серхио

В прагматическом разделе, что у? Также в этом разделе, некоторые изп(θ|Икс) условия быть вероятностью п(Икс|θ)?
Jsk

Благодарю. Я думаю, что может быть еще одна ошибка ... Вы пишетеп(θ)знак равноКИкс-1, but the prior can't depend on x. Do you mean P(θ)=kθ1?
jsk

Right! I've re-written that formulas as they are in Box & Tiao. I was trying to choose a homogeneous notation (e.g. Gelman uses y instead of x, DeGroot uses ξ(.) for priors and posteriors etc.) but I ended up in a mess... Thanks!
Sergio

2

However, in the case of an improper prior, how do you know that the posterior distribution actually exists?

The posterior might not be proper either. If the prior is improper and the likelihood is flat (because there are no meaningful observations), then the posterior equals the prior and is also improper.

Usually you have some observations, and usually the likelihood is not flat, so the posterior is proper.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.