Есть ли байесовский подход к оценке плотности?


22

Я заинтересован , чтобы оценить плотность непрерывной случайной величины . Один из способов сделать это, который я изучил, это использование оценки плотности ядра.X

Но теперь меня интересует байесовский подход, который заключается в следующем. Первоначально я считаю , что следует распределение . Я принимаю показания . Есть ли какой-то подход к обновлению на основе моих новых показаний?F n X FXFnXF

Я знаю, что звучу так, будто я противоречу самому себе: если я верю исключительно в как свое предыдущее распространение, то никакие данные не должны убедить меня в обратном. Тем не менее, предположим, что были и мои данные были похожи . Видя , я, очевидно, не могу придерживаться своего предыдущего, но как мне его обновить?F U n i f [ 0 , 1 ] ( 0,3 , 0,5 , 0,9 , 1,7 ) 1,7FFUnif[0,1](0.3,0.5,0.9,1.7)1.7

Обновление: основываясь на предложениях в комментариях, я начал смотреть на процесс Дирихле. Позвольте мне использовать следующие обозначения:

GDP(α,H)θi|GGxi|θiN(θi,σ2)

После формулирования моей исходной проблемы на этом языке, я думаю, меня интересует следующее: . Как это сделать?θn+1|x1,...,xn

В этом наборе заметок (стр. 2) автор сделал пример (схема Поля Урна). Я не уверен, если это актуально.θn+1|θ1,...,θn

Обновление 2: я также хотел бы спросить (после просмотра заметок): как люди выбирают для DP? Это похоже на случайный выбор. Кроме того, как люди выбирают предыдущий для DP? Должен ли я просто использовать априор для качестве моего априора для ?H θ HαHθH


2
«Если я верю исключительно в F как мое предыдущее распространение, то никакие данные не убедят меня в обратном». Это противоположность байесовского умозаключения, которое больше похоже на то, как вы берете то, во что вы верите, с одной стороны, и мир, с другой стороны, собираете их вместе и смотрите, что получится. Вымойте, промойте, повторите.
Алексис

Знаете ли вы что-нибудь о процессе Дирихле?
niandra82

Не обращая внимания на ваш последний абзац: у этой проблемы есть два общих варианта. Одним из них является конечная смесь нормалей (вы можете выбрать, сколько нормалей на основе вероятности перекрестной проверки) или бесконечная смесь нормалей, как предлагает @ niandra82. Это можно сделать с помощью чего-то вроде выборки Гиббса или вариационного вывода. Вам знаком любой из этих методов?

Я также должен спросить, как вы собираетесь использовать этот KDE? Выбранный метод и размер (бесконечный, конечный) могут зависеть от вашей цели.

Это звучит как проблема выбора модели или философская. В действительности, наш выбор того, какую вероятность использовать в байесовском умозаключении, накладывает также и прежние убеждения ...
Зоэ Кларк,

Ответы:


2

Поскольку вы хотите использовать байесовский подход, вам необходимо принять предварительные знания о том, что вы хотите оценить. Это будет в форме распределения.

Теперь есть проблема, что это теперь распределение по дистрибутивам. Однако это не проблема, если вы предполагаете, что распределения-кандидаты происходят из некоторого параметризованного класса распределений.

Например, если вы хотите предположить, что данные распределены по Гауссу с неизвестным средним, но с известной дисперсией, то все, что вам нужно, - это приоритет перед средним.

Оценка MAP неизвестного параметра (назовите его ) может продолжаться при условии, что все точки наблюдения / данные являются условно независимыми с учетом неизвестного параметра. Тогда оценка MAPθ

,θ^=argmaxθ(Pr[x1,x2,...,xn,θ])

где

.Pr[x1,x2,...,xn,θ]=Pr[x1,x2,...,xn|θ]Pr[θ]=Pr[θ]i=1nPr[xi|θ]

Следует отметить, что существуют конкретные комбинации априорной вероятности и распределения кандидатов которые приводят к легким (закрытым формам) обновлениям при получении большего количества точек данных.Pr[θ]Pr[x|θ]


1

Для оценки плотности вам не нужно

.θn+1|x1,,xn

Формула в примечаниях относится к прогнозирующему распределению процесса Дирихле.θn+1|θ1,,θn

Для оценки плотности вы фактически должны сделать выборку из прогнозирующего распределения

π(dxn+1|x1,,xn)

Выборка из приведенного выше распределения может быть выполнена либо с помощью условных методов, либо с помощью маргинальных методов. Для условных методов взгляните на статью Стивена Уокера [1]. Для маргинальных методов вы должны проверить в работе Рэдфорда Нила [2].

Для параметра конкнетирования Майк Уэст [3] предлагает метод вывода в процедуре MCMC, включающий полное условное распределение для α . Если вы решите не обновлять концентрацию α в процедуре MCMC, вам следует иметь в виду, что если вы выберете для нее большое значение, то число различных значений, извлеченных из процесса Дирихле, будет больше, чем число различных значений, если будет использовано небольшое число для α .αααα

[1] С.Г., Уокер (2006). Отбор проб из смеси Дирихле с ломтиками. Коммуникации в статистике (моделирование и вычисления).

[2] Р. М., Нил (2000). Марковские цепные методы Монте-Карло для моделей процессов Дирихле. Журнал вычислительной и графической статистики. Том 9, № 2, с. 249-265

[3] М., Вест (1992). Оценка гиперпараметров в моделях смеси процессов Дирихле. Технический отчет


-1

Есть ли какой-то подход к обновлению F на основе моих новых показаний?

Есть что-то именно для этого. Это в значительной степени основная идея байесовского вывода.

p(θ|y)p(y|θ)p(θ)

p(θ)Fp(y|θ)θ

p(θ)


3
FX1,,XniidFFL(F)=i=1NdFdx|x=xiF
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.