Понимание байесовских прогнозирующих распределений


9

Я прохожу курс «Введение в Байес» и испытываю некоторые затруднения с пониманием предиктивного распределения. Я понимаю, почему они полезны, и я знаком с определением, но есть некоторые вещи, которые я не совсем понимаю.

1) Как получить правильное предсказательное распределение для вектора новых наблюдений

Предположим, что мы построили модель выборки p(yi|θ) для данных и априорного p(θ) . Предположим, что наблюдения условно независимы с учетом .yiθ

Мы наблюдали некоторые данные , и мы обновляем наш предыдущий на задний .D={y1,y2,...,yk}p(θ)p(θ|D)

Если мы хотим предсказать вектор новых наблюдений , я думаю, что мы должны попытаться получить апостериорный прогноз, используя эту формулу который не равен поэтому предсказанные наблюдения не являются независимыми, верно?N={y~1,y~2,...,y~n}

p(N|D)=p(θ|D)p(N|θ)dθ=p(θ|D)i=1np(y~i|θ)dθ,
i=1np(θ|D)p(y~i|θ)dθ,

Скажи, что Бета ( ) и Бином ( ) для фиксированного . В этом случае, если бы я хотел смоделировать 6 новых , если я правильно понял, было бы неправильно моделировать 6 ничьих независимо от бета-биномиального распределения, которое соответствует апостериорному предиктиву для одного наблюдения. Это правильно? Я не знаю, как интерпретировать, что наблюдения не являются независимыми незначительно, и я не уверен, что понимаю это правильно.θ|Da,bp(yi|θ)n,θny~

Имитация из апостериорных предикатов

Много раз, когда мы моделируем данные из апостериорного прогнозирования, мы следуем этой схеме:

Для от 1 до :bB

1) Образец из .θ(b)p(θ|D)

2) Затем смоделируйте новые данные из .N(b)p(N|θ(b))

Я не совсем знаю, как доказать, что эта схема работает, хотя выглядит интуитивно. Кроме того, у этого есть имя? Я пытался найти оправдание и пробовал разные имена, но мне не повезло.

Спасибо!


Я задал похожий вопрос по адресу stats.stackexchange.com/questions/72570/… но похоже, что ваш голос получил больше голосов.
Джон

Ответы:


4

Предположим, что условно независимы, если . Тогда X1,,Xn,Xn+1Θ=θ

fXn+1X1,,Xn(xn+1x1,,xn)=fXn+1,ΘX1,,Xn(xn+1,θx1,,xn)dθ
=fXn+1Θ,X1,,Xn(xn+1θ,x1,,xn)fΘX1,,Xn(θx1,,xn)dθ
=fXn+1Θ(xn+1θ)fΘX1,,Xn(θx1,,xn)dθ,
ΘX1,,XnXn+1

i=1,,Nθ(i)ΘX1=x1,,Xn=xnxn+1(i)Xn+1Θ=θ(i){xn+1(i)}i=1NXn+1X1=x1,,Xn=xn


А как насчет, если вы получаете задний прогноз в течение нескольких периодов? Я использовал для каждого , но я понимаю, почему может иметь смысл перерисовать новую тэту. θ(i)xn+j
Джон

2

Я постараюсь пошагово перейти к интуиции за генерацией апостериорного прогнозирующего распределения.

Пусть будет вектором наблюдаемых данных, которые поступают из распределения вероятностей и пусть будет вектором будущих (или вне выборочных) значений, которые мы хотим предсказать. Мы предполагаем, что происходит из того же распределения, что и . Может быть соблазнительно использовать нашу лучшую оценку --- такую ​​как оценка MLE или MAP - для получения информации об этом распределении. Тем не менее, это неизбежно проигнорирует нашу неуверенность в отношении . Таким образом, подходящим способом продолжения является усреднение по заднему распределению , а именно . Заметим также , чтоyp(y|θ)y~y~yθθθp(θ|y)y~не зависит от заданного , так как предполагается, что это независимая выборка, взятая из того же распределения, что и . Таким образом,yθy

p(y~|θ,y)=p(y~,y|θ)p(θ)p(θ,y)=p(y~|θ)p(y|θ)p(θ)p(y|θ)p(θ)=p(y~|θ).

Последовательное прогнозирующее распределение , таким образом,y~

p(y~|y)=Θp(y~|θ,y)p(θ|y)dθ=Θp(y~|θ)p(θ|y)dθ

где - поддержка .Θθ

Теперь, как мы получаем образцы из ? Метод, который вы описываете, иногда называют методом композиции , который работает следующим образом:p(y~|y)


для s = 1,2, ..., S do

извлечь изθ(s)p(θ|y)

нарисовать изy~(s)p(y~|θ(s))


где, в большинстве случаев, у нас уже есть ничья из , так что требуется только второй шаг.p(θ|y)

Причина, по которой это работает, довольно проста: сначала обратите внимание, что . Таким образом, выборка вектора параметров из и затем использование этого вектора для выборки из дает выборки из совместного распределения . Отсюда следует, что выборочные значения являются выборками из маргинального распределения .p(y~,θ|y)=p(y~|θ,y)p(θ|y)θ(s)p(θ|y)y~(s)p(y~|θ(s))=p(y~|θ(s),y)p(y~,θ|y)y~(s),s=1,2,...,Sp(y~|y)


1

Чтобы ответить на ваш первый вопрос: да, наблюдения не являются независимыми, если вы не знаете значение . Скажем, вы заметили, что имеет весьма экстремальное значение. Это может быть признаком того, что неизвестное значение самой является экстремальным, и, следовательно, следует ожидать, что другие наблюдения также будут экстремальными.θy~1θ

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.