Могу ли я подвыбор большого набора данных на каждой итерации MCMC?


8

Проблема: я хочу выполнить выборку Гиббса, чтобы вывести некоторую апостериорную часть по большому набору данных. К сожалению, моя модель не очень проста, поэтому выборка слишком медленная. Я бы рассмотрел вариационные или параллельные подходы, но прежде чем идти так далеко ...

Вопрос: Я хотел бы знать, мог ли бы я случайно выбирать (с заменой) из моего набора данных на каждой итерации Гиббса, чтобы у меня было меньше экземпляров, чтобы учиться на каждом шаге.

Моя интуиция заключается в том, что даже если бы я изменил выборки, я бы не изменил плотность вероятности, и поэтому выборка Гиббса не должна замечать хитрости. Я прав? Есть ли упоминания о людях, которые сделали это?


1
Как отступление: другая идея состояла бы в том, чтобы сделать многократные анализы на случайных подвыборках большого набора данных. Таким образом, вы также можете перекрестной проверки.
предположения

2
Я не могу ответить на ваш точный вопрос с какой-либо достоверностью (хотя я подозреваю, что вы просто увеличите ошибку аппроксимации, которая идет с Монте-Карло), печальная правда в том, что это просто неудачный аспект байесовского анализа MCMC: они вычислительно дорогой. @conjectures comment - отличная идея, но она не решает суть проблемы: слишком дорого рисовать все эти образцы для каждого человека. Я рекомендую написать свой собственный C-код для тяжелой работы (Rcpp в R, Cython в Python и т. Д.), А также распараллеливать (когда нет зависимостей ветвления).

1
@conjectures Это звучит как сумка маленьких бутстрапов Майкла Джордана.
Джарадниеми

1
Я бы предложил изменить ваш сэмплер, чтобы вообще избежать скрытой переменной. У вас больше не будет сэмплера Гиббса, но алгоритм Метрополиса-Гастингса с предложением, основанным на нормальном приближении к вероятности, должен работать просто отлично. См. Раздел 16.4 2-го издания Байесовского анализа данных.
Джарадниеми

6
Это область активных исследований, которую я не знаю достаточно хорошо, чтобы точно подвести итог для вас. См., Например, jmlr.org/proceedings/papers/v32/bardenet14.pdf и arxiv.org/pdf/1304.5299v4.pdf
Эндрю М,

Ответы:


1

X1N(μ1,σ12)X2N(μ2,σ22)θ=(μ1,μ2,σ12,σ22)

f(θ|X1,X2)f(X1|θ)f(X2|θ)f(θ)
δB(0.5)δ=0X1δ=1X2
f(θ,δ|X1,X2)f(X1,X2|δ,θ)f(θ)f(δ)
f(X1,X2|δ,θ)=f(X1|θ)δf(X2|θ)1δf(δ)=0.5δf(X1|θ)f(X2|θ)P(δ=1)=f(X1|θ)f(X1|θ)+f(X2|θ)δf(X1|θ)f(X2|θ)f(X1|θ)f(X2|θ)δδ
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.