Что такое важность выборки?

Я пытаюсь научиться подкреплению, и эта тема меня очень смущает. Я взял введение в статистику, но я просто не мог понять эту тему интуитивно.

— Тяньань Нгуен
источник

Ответы:

Выборка по важности - это форма выборки из распределения, отличного от распределения по интересам, чтобы упростить получение более точных оценок параметра из распределения по интересам. Как правило, это обеспечит оценки параметра с меньшей дисперсией, чем было бы получено путем выборки непосредственно из исходного распределения с тем же размером выборки.

Применяется в разных контекстах. В целом, выборка из другого распределения позволяет отбирать больше образцов в той части распределения интересов, которая диктуется приложением (важный регион).

Одним из примеров может быть то, что вы хотите иметь выборку, которая включает в себя больше выборок из хвостов распределения, чем может обеспечить чистая случайная выборка из интересующего распределения.

Википедии статья , что я видел на эту тему слишком абстрактно. Лучше взглянуть на различные конкретные примеры. Однако он содержит ссылки на интересные приложения, такие как Байесовские сети.

Одним из примеров важности выборки в 1940-х и 1950-х годах является метод уменьшения дисперсии (форма метода Монте-Карло). См., Например, книгу «Методы Монте-Карло» Хаммерсли и Хэндскомба, опубликованную в 1964 году в виде монографии Метуэна / Чепмена и Холла и переизданную в 1966 году, а затем и другими издателями. Раздел 5.4 книги охватывает важность выборки.

— Майкл Р. Черник
источник

Чтобы добавить к этому: в RL вы обычно применяете выборку важности к политике: например, выборку действий из политики исследования вместо фактической политики, которую вы действительно хотите

— DaVinci

Этот ответ начинается хорошо, объясняя , что значение выборки делает, но я был разочарован , чтобы найти его никогда не отвечает на вопрос о том, что выборки по значимости является : как это работает?

— whuber

@whuber Моя цель здесь состояла в том, чтобы объяснить концепцию запутанному ОП и указать ему некоторую литературу. Это большая тема, которая используется в разных приложениях. Другие могут объяснить детали в простых терминах лучше, чем я. Я знаю, что когда вы решите ответить на вопрос, вы идете на все, чтобы получить отличные графики, изучая технические детали простым языком. Эти посты почти всегда удовлетворяют сообщество своей ясностью и полнотой, и, осмелюсь сказать, также удовлетворяет ФП хотя бы частично. Возможно, несколько предложений с уравнениями будет достаточно, как вы предлагаете.

— Майкл Р. Черник

Может быть, лучше, чтобы сообщество ответило на вопрос, а не просто указало на другие источники или даже предоставило ссылки. Я просто чувствовал, что то, что я сделал, было адекватным, и ОП, который признает себя новичком в статистике, должен сначала приложить некоторые усилия.

— Майкл Р. Черник

У вас есть пункт. Интересно, однако, возможно ли в одном-двух дополнительных предложениях - ни математики, ни графиков, ни какой-либо дополнительной работы - дать ответ на заданный вопрос. В этом случае описание должно было бы подчеркнуть, что оценивается ожидание (а не какой-либо «параметр»), а затем, возможно, указать, что, поскольку ожидание суммирует произведение значений и вероятностей, можно получить тот же результат, изменяя вероятности ( к распределению, из которого легко выбрать образец) и корректировке значений, чтобы компенсировать это.

— whuber

Выборка по важности - это метод моделирования или метод Монте-Карло, предназначенный для аппроксимации интегралов. Термин «выборка» несколько сбивает с толку, поскольку он не предназначен для предоставления выборок из данного распределения.

Интуиция позади важности выборки состоит в том, что четко определенный интеграл, такой как можно выразить как ожидание для широкого диапазона распределений вероятностей:

I = \int_{X} h (x) d x

$\mathfrak{I}=\int_\mathfrak{X} h(x)\,\text{d}x$

, где

обозначает плотность распределения вероятностей и

определяется

. (Обратите внимание, что обычно отличается от .)Действительно, выбор

I = E_{f} [H (X)] = \int_{X} H (x) f (x) d x

$\mathfrak{I}=\mathbb{E}_f[H(X)]=\int_\mathfrak{X} H(x)f(x)\,\text{d}x$

f

$f$

H

$H$

h

$h$

f

$f$ $H(\cdot)$ $h(\cdot)$

приводит к равенствам

при некоторых ограничениях на поддержку

, что означает

когда

H (x) = \frac{h (x)}{f (x)}

$H(x)=\dfrac{h(x)}{f(x)}$

H (x) f (x) = h (x)

$H(x)f(x)=h(x)$

I = E_{f} [H (X)]

$\mathfrak{I}=\mathbb{E}_f[H(X)]$

-

$-$

f

$f$

f (x) > 0

$f(x)>0$

h (x) \neq 0

$h(x)\ne 0$

-

$-$ , Следовательно, как указал В. Хубер в своем комментарии, нет единства в представлении интеграла как ожидания, а напротив, бесконечного множества таких представлений, некоторые из которых лучше, чем другие, когда-то критерий для сравнения их принято. Например, Майкл Черник упоминает выбор

сторону уменьшения дисперсии оценки.

f

$f$

Как только это элементарное свойство понято, реализация идеи заключается в том, чтобы полагаться на закон больших чисел, как и в других методах Монте-Карло, т.е. моделировать [через псевдослучайный генератор] выборку iid распространен от и использовать приближение $(x_1,\ldots,x_n)$ $f$ который

\hat{I} = \frac{1}{n} \sum_{i = 1}^{n} H (x_{i})

$\hat{\mathfrak{I}}=\frac{1}{n} \sum_{i=1}^n H(x_i)$

это непредвзятая оценка $\mathfrak{I}$
почти наверняка сходится ко $\mathfrak{I}$

В зависимости от выбора распределения , выше оценки может или не может иметь конечную дисперсию. Однако всегда существуют варианты которые допускают конечную дисперсию и даже сколь угодно малую дисперсию (хотя эти варианты могут быть недоступны на практике). И существуют также выбор , которые делают важность выборки оценивания очень плохой аппроксимации . Это включает в себя все варианты, где дисперсия становится бесконечной, хотя недавняя статья Чаттерджи и Диакониса изучает, как сравнивать важные пробоотборники с бесконечной дисперсией. Картинка ниже взята из $f$ $\hat{\mathfrak{I}}$ $f$ $f$ $\hat{\mathfrak{I}}$ ${\mathfrak{I}}$ мой блог обсуждение из бумаги и показывает плохую сходимость бесконечных дисперсии оценок.

Выборка по важности с распределением важности, целевым распределением Exp (1), распределением Exp (1/10) и интересующей функцией . Истинное значение интеграла равно . $h(x)=x$ $10$

[Следующее воспроизведено из нашей книги Статистические методы Монте-Карло .]

Следующий пример из Ripley (1987) показывает, почему он действительно может заплатить за генерацию из распределения, отличного от (оригинального) распределения фигурирующего в интеграле $f$ представляет интерес, или, другими словами, изменить представление интеграла как ожидание от заданной плотности.

\int_{Икс} час (Икс) е (Икс) d Икс

$\int_\mathfrak{X} h(x) f(x)\,\text{d}x$

Пример (вероятность хвоста Коши) Предположим, что интересующей величиной является вероятность, , что переменная Коши больше , то есть $p$ ${\mathcal{C}}(0,1)$ $2$ При оцениваются через эмпирический средний

п знак равно \int_{2}^{+ \infty} \frac{1}{π (1 + {Икс}^{2})} d Икс,

$p = \int_2^{+\infty} \; {1\over \pi(1 + x^2)} \; \text{d}x \;.$

p

$p$

образца iid

{\hat{п}}_{1} знак равно \frac{1}{м} Σ_{J знак равно 1}^{м} я_{{Икс}_{J} > 2}

${\hat{p}}_1 = {1\over m} \; \sum_{j=1}^m \; \mathbb{I}_{X_{j} > 2}$

X_{1}, \dots, X_{m}

$X_1,\ldots,X_m$

\sim

$\sim$

, дисперсия этой оценки равна

(равно

так как

C (0, 1)

$\; \mathcal{C}(0,1)$

p (1 - p) / m

$p(1-p)/m$

0.127 / m

$0.127/m$

p = 0.15

$p=0.15$

Эта дисперсия может быть уменьшена, принимая во внимание симметричный характер , поскольку средний ${\mathcal{C}}(0,1)$

{\hat{п}}_{2} знак равно \frac{1}{2 м} Σ_{J знак равно 1}^{м} я_{| {Икс}_{J} | > 2}

${\hat{p}}_2 = {1\over 2m} \; \sum_{j=1}^m \; \mathbb{I}_{|X_{j}| > 2}$

p (1 - 2 p) / 2 m

$p(1-2p)/2m$

0.052 / m

$0.052/m$

$[2,+\infty)$ $p$ $p$

p = \frac{1}{2} - \int_{0}^{2} \frac{1}{π (1 + x^{2})} d x,

$p = {1\over 2} - \int_0^2 \; {1\over \pi(1 + x^2)} \; \text{d}x \;,$ the integral above can be considered to be the expectation of

h (X) = 2 / π (1 + X^{2})

$h(X) = 2/\pi(1 + X^2)$ , where

X \sim U_{[0, 2]}

$X \sim {\mathcal{U}}_{[0, 2]}$ . An alternative method of evaluation for

p

$p$ is therefore

{\hat{p}}_{3} = \frac{1}{2} - \frac{1}{m} \sum_{j = 1}^{m} h (U_{j})

${\hat{p}}_3 = {1\over 2} - {1\over m} \; \sum_{j=1}^m \; h(U_j)$ for

U_{j} \sim U_{[0, 2]}

$U_j \sim {\mathcal{U}}_{[0,2]}$ . The variance of

{\hat{p}}_{3}

${\hat{p}}_3$ is

(E [h^{2}] - E [h]^{2}) / m

$(\mathbb{E}[h^2] - \mathbb{E}[h]^2)/m$ and an integration by parts shows that it is equal to

0.0285 / m

$0.0285/m$ . Moreover, since

p

$p$ can be written as

p = \int_{0}^{1 / 2} \frac{y^{- 2}}{π (1 + y^{- 2})} d y,

$p = \int_0^{1/2} \; {y^{-2}\over \pi(1 + y^{-2})} \; \text{d}y \;,$ this integral can also be seen as the expectation of

\frac{1}{4} h (Y) = 1 / 2 π (1 + Y^{2})

${1\over 4} \; h(Y) = 1/2\pi(1 + Y^2)$ against the uniform distribution on

[0, 1 / 2]

$[0,1/2]$ and another evaluation of

p

$p$ is

{\hat{p}}_{4} = \frac{1}{4 m} \sum_{j = 1}^{m} h (Y_{j})

${\hat{p}}_4 = {1\over 4 m} \; \sum_{j=1}^m \; h(Y_j)$ when

Y_{j} \sim U_{[0, 1 / 2]}

$Y_j \sim {\mathcal{U}}_{[0,1/2]}$ . The same integration by parts shows that the variance of

{\hat{p}}_{4}

${\hat{p}}_{4}$ is then

0.95 10^{- 4} / m

$0.95 \; 10^{-4}/m$ .

Compared with ${\hat{p}}_1$ , the reduction in variance brought by ${\hat p}_4$ is of order $10^{-3}$ , which implies, in particular, that this evaluation requires $\sqrt{1000} \approx 32$ times fewer simulations than $\hat p_1$ to achieve the same precision. $\blacktriangleright$

— Xi'an
источник

Thank you @Xi' an for going to the trouble of illustrating importance sampling in a way that everyone can appreciate and I think more than satisfies Bill Huber's request. +1

— Michael R. Chernick

I want to note that initially this post was put on hold and thanks to the contributions of several people. We have come up with an informative thread.

— Michael R. Chernick

Кристиан, я хочу поблагодарить вас и выразить чувство привилегии за то, что вы активно делитесь с нами таким прекрасным материалом.

— whuber

Я просто хочу поблагодарить Сианя, который был достаточно любезен, чтобы внести несколько правок, чтобы улучшить мой ответ, даже если он дал один из них.

— Майкл Р. Черник

Это должен быть один из лучших постов на stats.stackexchange. Спасибо, что поделился!

— дохматоб