Результаты оценок Монте-Карло, полученные с помощью выборки по важности

В течение прошлого года я довольно тесно работал над выборкой важных данных, и у меня есть несколько открытых вопросов, с которыми я надеялся получить некоторую помощь.

Мой практический опыт работы со схемами выборки по важности заключался в том, что они могут иногда давать фантастические оценки с низким отклонением и смещением. Однако чаще они, как правило, дают оценки с высокой ошибкой, которые имеют низкую дисперсию выборки, но очень высокую погрешность.

Мне интересно, может ли кто-нибудь объяснить, какие именно факторы влияют на достоверность выборочных оценок важности? В частности мне интересно:

1) Гарантируются ли оценки выборки важности к правильному результату, когда распределение смещения имеет ту же поддержку, что и исходное распределение? Если так, то почему на практике это занимает так много времени?

2) Существует ли количественная связь между ошибкой в оценке, полученной в результате выборки по важности, и "качеством" распределения смещения (т. Е. Насколько оно соответствует распределению с нулевой дисперсией)

3) Частично основанный на 1) и 2) - есть ли способ количественно определить, «сколько» вы должны знать о распределении, прежде чем вам лучше будет использовать выборочный анализ важности, чем простой метод Монте-Карло.

monte-carlo information-theory importance-sampling

— Берк У.
источник

Ответы:

Выборка по важности имеет ту же валидацию, что и базовый подход Монте-Карло. По своей сути это основной Монте-Карло . Действительно, это просто изменение контрольной меры, переходящее от к

\int h (x) f (x) d x

$\int h(x) f(x) \text{d}x$

Таким образом, сходимость гарантируется законом больших чисел в обоих случаях, т.е. независимо от того, моделируете ли вы из

или из

. Кроме того, если слагаемое

\int h (x) \frac{f (x)}{g (x)} g (x) d x

$\int h(x) \dfrac{f(x)}{g(x)} g(x) \text{d}x$

f

$f$

g

$g$

конечно, также применима центральная предельная теорема и скорость сходимости равна

\int h^{2} (x) \frac{f^{2} (x)}{g (x)} d x

$\int h^2(x) \dfrac{f^2(x)}{g(x)} \text{d}x$

. Если на практике это «занимает много времени», то это потому, что вышеуказанный коэффициент дисперсии в CLT может быть довольно большим. Но, и я настаиваю, скорость такая же, как с обычным Монте-Карло,

O (1 / \sqrt{n})

$\text{O}(1/\sqrt{n})$

O (1 / \sqrt{n})

$\text{O}(1/\sqrt{n})$

Таким образом, качество важного распределения выборки напрямую связано с вышеуказанным коэффициентом дисперсии, который сводится к нулю для «распределения нулевой дисперсии», пропорционального . $|h(x)|f(x)$

— Сиань
источник

Я подозреваю, что, учитывая, что ОП сообщает о небольших оценочных дисперсиях, которые являются предвзятыми, но, кажется, имеют небольшую дисперсию, он может задавать вопрос о самостоятельной нормированной значимости выборки. См. Пример с Рэдфордом Нилом по оценке гармонического среднего для хорошего примера, который берет оценку выборки важности с 0 дисперсией и возвращает бессмыслицу. Я не уверен, что это никогда не происходит в регулярной выборке важности, но это, конечно, редко.

— deinst

Даже если это не было целью ОП, мне было бы интересно узнать, как выяснить, когда самонормализация пойдет ужасно неправильно.

— deinst

@deinst Я не знал о процедуре самонормализации и ее подводных камнях, так что спасибо вам за это! В любом случае, я думаю, что проблемы могут иметь отношение к свойствам моей схемы IS, поэтому я хотел бы изучить эту идею еще немного, если у кого-то из вас есть идеи.

— Берк У.

g (x)

$g(x)$

M

$M$

x_{1} . . x_{M}

$x_1..x_M$

g^{*} (x) = h (x) f (x) / \int h (x) f (x) d x

$g^*(x) = h(x)f(x)/\int{h(x)f(x)dx}$

x_{1} . . x_{M}

$x_1..x_M$

\hat{g (x)}

$\hat{g(x)}$

\hat{g (x)}

$\hat{g(x)}$

N

$N$

y_{1} . . . y_{N}

$y_1...y_N$

Использование непараметрической оценки вводит изменчивость более высокого порядка, чем переменность Монте-Карло, поэтому я бы не советовал ее.

— Сиань

$f$ $g$

δ = \int h (x) f (x) d x

$\delta=\int h(x)f(x)\text{d}x$

x_{1}, \dots, x_{n}

$x_1,\ldots,x_n$

g (x)

$g(x)$

\hat{δ} = \frac{\sum_{i = 1}^{n} h (x) f (x) / g (x)}{\sum_{i = 1}^{n} f (x) / g (x)} .

$\hat{\delta}=\frac{\sum_{i=1}^n h(x)f(x)/g(x)}{\sum_{i=1}^n f(x)/g(x)}.$ Using the delta method (basically taking up to the linear terms of the taylor series of

X / Y

$X/Y$ ) and letting

ω (X) = f (x) / g (X)

$\omega(X)=f(x)/g(X)$ we get

E_{g} (\hat{δ}) \approx δ + \frac{δ {Var}_{g} (ω (X)) - {Cov}_{g} (ω (X), h (X) ω (X))}{n}

$E_g(\hat{\delta})\approx \delta + \frac{\delta \text{Var}_g(\omega(X))-\text{Cov}_g(\omega(X),h(X)\omega(X))}{n}$ and

{Var}_{g} (\hat{δ}) \approx \frac{{Var}_{g} (h (X) ω (X)) - 2 δ {Cov}_{g} (ω (X), h (X) ω (X)) + δ^{2} {Var}_{g} (ω (X))}{n} .

$\text{Var}_g(\hat{\delta})\approx\frac{\text{Var}_g(h(X)\omega(X))-2\delta\text{Cov}_g(\omega(X),h(X)\omega(X))+\delta^2\text{Var}_g(\omega(X))}{n}.$

So, intuitvely, to get small bias and small variance, you want $\text{Var}_g(\omega(X))$ to be small and $\text{Cov}_g(\omega(X),h(X)\omega(X))$ to be positive. Unfortunately these approximations are not perfect (and accurately determining the variances and covariances is likely to be as difficult as solving the initial problem).

— deinst
источник

Thank you for this. I'm just a little unsure about the notation / not sure if there is a typo. To clarify, what exactly are

X / Y

$X/Y$ and

G

$G$ in your explanation?

— Berk U.

@BerkUstun The capital G is a typo for a small that I will fix promptly. X/Y is just a generic ratio of random variables. IIRC all this is explained in Liu's Monte Carlo book (something with scientific in the title.)

— deinst

@deinst: Great point! Indeed, the properties of the self-normalised versions are quite different from those of the unbiased importance sampling estimator. In theory, one would need a separate importance sampler to estimate the denominator.

— Xi'an