Должен ли байесовский апостериор иметь правильное распределение?


21

Я знаю, что априорные значения не обязательно должны быть правильными и что функция правдоподобия также не интегрируется с 1. Но должен ли апостериор быть правильным распределением? Каковы последствия, если это / нет?

Ответы:


15

(Несколько удивительно читать предыдущие ответы, которые фокусируются на потенциальной неправильности апостериорного, когда предшествующий является правильным, поскольку, насколько я могу судить, вопрос в том, должен ли апостериор быть правильным ( т. е. интегрируемо в единицу) быть надлежащим (т. е. приемлемым для байесовского вывода) апостериорным.)

В статистике Байесовской, заднее распределение имеет быть распределение вероятностей, из которого можно вывести такие моменты задней средней Eπ[h(θ)|x] и вероятностные утверждения, такие как покрытие вероятного региона, P(π(θ|x)>κ|x) . Если заднийπ ( θ | x )

f(x|θ)π(θ)dθ=+,(1)
π(θ|x)не может быть нормализовано в плотность вероятности, и байесовский вывод просто не может быть проведен. Задний просто не существует в таких случаях.

На самом деле, (1) должно выполняться для всех в пространстве выборки, а не только для наблюдаемого , иначе выбор предыдущего будет зависеть от данных . Это означает, что априоры, такие как априор Холдейна, , для вероятности биномиальной или отрицательной биномиальной переменной X не могут использоваться, поскольку апостериор не является определено для х = 0 .x xp X x = 0π(p){1/p(1p)}pXx=0

Я знаю одно исключение, когда можно рассматривать «неправильных постеров»: оно найдено в «Искусстве увеличения данных» Дэвида ван Дейка и Сяо-Ли Мена. Неправильная мера находится над так называемым рабочим параметром , так что наблюдение производится маргиналом расширенного распределения а Ван Дайк и Мэн задают неправильный предшествующий для этого рабочего параметра чтобы ускорить моделирование (которое остается четко определенным как плотность вероятности) MCMC.f ( x | θ ) = T ( x aug ) = x f ( x aug | θ , α )α p ( α ) α π ( θ | x )

f(x|θ)=T(xaug)=xf(xaug|θ,α)dxaug
p(α)απ(θ|x)

С другой стороны, в некоторой степени связанный с ответом eretmochelys , а именно с точки зрения байесовской теории принятия решений , установка, в которой (1) происходит, все еще может быть приемлемой, если она приводит к оптимальным решениям. А именно, если - это функция потерь, оценивающая влияние использования решения , оптимальное байесовское решение при предшествующем задается как и все, что имеет значение, это то, что этот интеграл не везде (в ) бесконечен. Является ли (1) верным для полученияL(δ,θ)0δπ

δ(x)=argminδL(δ,θ)f(x|θ)π(θ)dθ
δδ(x)даже если такие свойства, как допустимость, гарантируются только при выполнении (1).

19

Заднее распределение не обязательно должно быть правильным, даже если предшествующее является правильным. Например, предположим, что имеет гамма-априор с формой 0.25 (что является правильным), и мы моделируем нашу точку отсчета как полученную из гауссовского распределения со средним нулем и дисперсией . Предположим, что наблюдается равным нулю. Тогда вероятность пропорциональна , что делает апостериорное распределение для несоответствующим, поскольку оно пропорционально . Эта проблема возникает из-за дурацкой природы непрерывных переменных.vxvxp(x|v)v0.5vv1.25ev


Классный пример, Том!
Дзен

+1, хотя не могли бы вы расширить ответ на последнее предложение ОП? Является ли этот дурацкий апостериорный смысл (вы можете делать то, что вы обычно делаете с апостериорным), или это больше похоже на получение NaN или Inf из некоторых расчетов? Это признак того, что с вашей моделью что-то не так?
Уэйн

5
Там нет ничего плохого с моделью. Этот апостериор имеет смысл в том смысле, что если вы получите другое наблюдение, вы можете умножить его и, возможно, вернуться к правильному апостериору. Так что это не похоже на NaN, на котором все дальнейшие операции являются NaN.
Том Минка

8
Хотя это, вероятно, слишком поздно, чтобы иметь значение, я не думаю, что использование таких «контрпримеров» поможет новичкам: проблема возникает из-за того, что вы используете конкретную версию гауссовой плотности при , когда она может быть произвольно определена на этом наборе меры ноль. И, следовательно, сделать заднюю правильную или неправильную в зависимости от выбранной версии. x=0
Сиань

Интересно - если вы берете общий , то апостериорный является обобщенным обратным гауссианом с параметрами . @ Сиань - было бы неплохо увидеть альтернативный способ получить правильную апостериорную сторону. - 0,25 , 1 , х 2x0.25,1,x2
probislogic

11

Определение набора мы имеем P r ( X фиктивные данные ) = фиктивные данные f ( x θ )

Bogus Data={x:f(xθ)π(θ)dθ=},
Последний интеграл будет равен ∞, если мера Лебега фиктивных данных положительна. Но это невозможно, потому что этот интеграл дает вам вероятность (действительное число от 0 до 1 ). Отсюда следует, что мера Лебега фиктивных данных равна 0 , и, разумеется, также следует, что P r ( X Bogus Data ) = 0 .
Pr(XBogus Data)=Bogus Dataf(xθ)π(θ)dθdx=Bogus Datadx.
Bogus Data01Bogus Data0Pr(XBogus Data)=0

На словах: вероятность предшествующего прогнозирования тех значений выборки, которые делают апостериорный неправильный, равна нулю.

Мораль истории: остерегайтесь нулевых множеств, они могут кусаться, как бы невероятно это ни было.

PS Как отметил профессор Роберт в комментариях, это рассуждение разрушается, если предшествующее является неправильным.


4
Вы однажды написали : «Если мы сможем начать с правильного априора и получить неправильный апостериор, то я оставлю вывод».
Том Минка

2
Немного в щеке, был неявный квантификатор: если мы можем начать с правильного априора и получить неправильный апостериор для каждого возможного значения выборки, то я оставлю вывод. ;-)
Zen

Кстати, замечательная память, Том!
Дзен

4
Pr(XBogus Data)(θ,x)

1
Ты прав. Рассуждение в ответе работает только с правильными приоры. Хорошая точка зрения. Я добавлю заметку.
Дзен

3

Любое «распределение» должно суммироваться (или интегрироваться) в 1. Я могу привести несколько примеров, когда можно работать с ненормализованными дистрибутивами, но мне неудобно когда-либо называть что-либо, что ограничивает что-либо, кроме 1, «распределением».

xd

x^=argmaxxPX|D(x|d)=argmaxxPD|X(d|x)PX(x)PD(d)=argmaxxPD|X(d|x)PX(x)

PDxx^PD|X(d|x)PX(x)


@ Дзен, не могли бы вы быть более откровенным в том, что, по вашему мнению, неправильно (или принципиально неполно) в этом ответе?
whuber

1
Один из способов интерпретации OP-вопроса: «Должно ли заднее быть правильным распределением?» это спросить, если математически возможно начать с надлежащего априорного и закончить с неправильным задним. Ответ Минки дает явный пример, в котором это происходит. Я попытался дополнить его своим ответом и указать, что это может произойти только внутри набора с нулевой предиктивной вероятностью.
Дзен

1
@ Zen Мне кажется, что тесно связанная интерпретация гласит: «Если апостериор неправильный, какую информацию я могу получить от него?» Этот принятый ответ выглядит так, как будто он дает полезный и правильный совет, связанный с этим в особых обстоятельствах (которые четко описаны). Принятие выглядит для меня как сигнал, что eretmochelys ударил домой с проницательным предположением об обстоятельствах.
whuber

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.