Оцените расхождение Куллбека Лейблера (КЛ) с Монте-Карло

10

Я хочу оценить KL-расхождение между двумя непрерывными распределениями f и g. Однако я не могу записать плотность ни для f, ни для g. Я могу сделать выборку как из f, так и из g с помощью какого-либо метода (например, цепочки Маркова Монте Карло).

Расхождение KL от f до g определяется следующим образом

D_{K L} (f | | g) = \int_{- \infty}^{\infty} f (x) \log (\frac{f (x)}{g (x)}) d x

$D_{KL}(f || g) = \int_{-\infty}^{\infty} f(x) \log\left(\frac{f(x)}{g(x)}\right) dx$

Это ожидание $\log\left(\frac{f(x)}{g(x)}\right)$ относительно f, чтобы вы могли представить некоторую оценку Монте-Карло

\frac{1}{N} \sum_{i}^{N} \log (\frac{f (x_{i})}{g (x_{i})})

$\frac{1}{N}\sum_i^N \log\left(\frac{f(x_i)}{g(x_i)}\right)$

Где я индексирует N выборок, которые взяты из f (то есть $x_i \sim f()$ для i = 1, ..., N)

Однако, поскольку я не знаю f () и g (), я даже не могу использовать эту оценку Монте-Карло. Каков стандартный способ оценки KL в этой ситуации?

РЕДАКТИРОВАТЬ: Я НЕ знаю ненормализованной плотности для f () или g ()

kullback-leibler

— frelk
источник

Вы рассматривали возможность использования ecdf?

— Тоби

это будет работать, но это может быть сколь угодно медленным для сложного выбора f и g (близких или близких хвостов). Если вы решите игнорировать образцы вдали от хвостов, вам может повезти с верхним ограничением рока.

— Кристиан Чепмен

По сути, дубликат: stats.stackexchange.com/questions/211175/…

— kjetil b halvorsen

7

Я предполагаю, что вы можете оценить и точностью до нормализующей константы. Обозначим и . $f$ $g$ $f(x) = f_u(x)/c_f$ $g(x) = g_u(x)/c_g$

Последовательная оценка, которая может использоваться, является где

\hat{D_{K L}} (f | | g) = {[n^{- 1} \sum_{j} f_{u} (x_{j}) / π_{f} (x_{j})]}^{- 1} \frac{1}{N} \sum_{i}^{N} [\log (\frac{f_{u} (z_{i})}{g_{u} (z_{i})}) \frac{f_{u} (z_{i})}{π_{r} (z_{i})}] - \log (\hat{r})

$\widehat{D_{KL}}(f || g) = \left[n^{-1} \sum_j f_u(x_j)/\pi_f(x_j)\right]^{-1}\frac{1}{N}\sum_i^N \left[\log\left(\frac{f_u(z_i)}{g_u(z_i)}\right)\frac{f_u(z_i)}{\pi_r(z_i)}\right] - \log (\hat{r})$

является оценочной выборкой важности для отношения

. Здесь вы используете

и

качестве инструментальных плотностей для

и

соответственно и

для целевого логарифмического отношения ненормализованных плотностей.

\begin{matrix} (1) & \hat{r} = \frac{1 / n}{1 / n} \frac{\sum_{j} f_{u} (x_{j}) / π_{f} (x_{j})}{\sum_{j} g_{u} (y_{j}) / π_{g} (y_{j})} . \end{matrix}

$\hat{r} = \frac{1/n}{1/n}\frac{\sum_j f_u(x_j)/\pi_f(x_j)}{\sum_j g_u(y_j)/\pi_g(y_j)} \tag{1}.$

c_{f} / c_{g}

$c_f/c_g$

π_{f}

$\pi_f$

π_{g}

$\pi_g$

f_{u}

$f_u$

g_{u}

$g_u$

π_{r}

$\pi_r$

Итак, пусть , и . Числитель (1) сходится к . Знаменатель сходится к . Соотношение согласуется по теореме о непрерывном отображении. Лог отношения является постоянным путем непрерывного отображения снова. $\{x_i\} \sim \pi_f$ $\{y_i\} \sim \pi_g$ $\{z_i\} \sim \pi_r$ $c_f$ $c_g$

Что касается другой части оценки, по закону больших чисел.

\frac{1}{N} \sum_{i}^{N} [\log (\frac{f_{u} (z_{i})}{g_{u} (z_{i})}) \frac{f_{u} (z_{i})}{π_{r} (z_{i})}] \overset{as}{\to} c_{f} E [\log (\frac{f_{u} (z_{i})}{g_{u} (z_{i})})]

$\frac{1}{N}\sum_i^N \left[\log\left(\frac{f_u(z_i)}{g_u(z_i)}\right)\frac{f_u(z_i)}{\pi_r(z_i)}\right] \overset{\text{as}}{\to} c_f E\left[ \log\left(\frac{f_u(z_i)}{g_u(z_i)}\right) \right]$

Моя мотивация заключается в следующем:

Так что я просто разбил его на куски.

\begin{aligned} D_{K L} (f | | g) & = \int_{- \infty}^{\infty} f (x) \log (\frac{f (x)}{g (x)}) d x \\ = \int_{- \infty}^{\infty} f (x) {\log [\frac{f_{u} (x)}{g_{u} (x)}] + \log [\frac{c_{g}}{c_{f}}]} d x \\ = E_{f} [\log \frac{f_{u} (x)}{g_{u} (x)}] + \log [\frac{c_{g}}{c_{f}}] \\ = c_{f}^{- 1} E_{π_{r}} [\log \frac{f_{u} (x)}{g_{u} (x)} \frac{f_{u} (x)}{π_{r} (x)}] + \log [\frac{c_{g}}{c_{f}}] . \end{aligned}

$\begin{align*} D_{KL}(f || g) &= \int_{-\infty}^{\infty} f(x) \log\left(\frac{f(x)}{g(x)}\right) dx \\ &= \int_{-\infty}^{\infty} f(x)\left\{ \log \left[\frac{f_u(x)}{g_u(x)} \right] + \log \left[\frac{c_g}{c_f} \right]\right\} dx \\ &= E_f\left[\log \frac{f_u(x)}{g_u(x)} \right] + \log \left[\frac{c_g}{c_f} \right] \\ &= c_f^{-1} E_{\pi_r}\left[\log \frac{f_u(x)}{g_u(x)}\frac{f_u(x)}{\pi_r(x)} \right] + \log \left[\frac{c_g}{c_f} \right]. \end{align*}$

Для получения дополнительных идей о том, как смоделировать отношение правдоподобия, я нашел несколько документов: https://projecteuclid.org/download/pdf_1/euclid.aos/1031594732

— Тейлор
источник

(+1) Стоит отметить, что выборка важности может иметь чрезвычайно высокую дисперсию (даже бесконечную дисперсию), если целевое распределение имеет более толстые хвосты, чем распределение, из которого вы выбираете, и / или количество измерений вообще велико.

— Дэвид Дж. Харрис,

@ DavidJ. Харрис, очень, очень верно

— Тейлор,

6

Здесь я предполагаю, что вы можете выбирать только из моделей; Ненормализованная функция плотности недоступна.

Ты пишешь что

D_{K L} (f | | g) = \int_{- \infty}^{\infty} f (x) \log (\underset{=: r}{\underset{⏟}{\frac{f (x)}{g (x)}}}) d x,

$D_{KL}(f || g) = \int_{-\infty}^{\infty} f(x) \log\left(\underbrace{\frac{f(x)}{g(x)}}_{=: r}\right) dx,$

где я определил отношение вероятностей к . Алекс Смола пишет, хотя в другом контексте вы можете легко оценить эти коэффициенты, просто обучив классификатор. Предположим, вы получили классификатор , который может сообщить вам вероятность того, что наблюдение было сгенерировано . Отметим, что . Затем: $r$ $p(f|x)$ $x$ $f$ $p(g|x) = 1 - p(f|x)$

r = \frac{p (x | f)}{p (x | g)} = \frac{p (f | x) p (x) p (g)}{p (g | x) p (x) p (f)} = \frac{p (f | x)}{p (g | x)},

$r = \frac{p(x|f)}{p(x|g)} \\ = \frac{p(f|x) {p(x) p(g)}}{p(g|x)p(x) p(f)} \\ = \frac{p(f|x)}{p(g|x)},$

$p(g) = p(f)$

Получить такой классификатор может быть довольно легко по двум причинам.

$f$ $g$

— bayerj
источник

0

Помимо метода вероятностного классификатора, упомянутого @bayerj, вы также можете использовать нижнюю границу расхождения KL, полученную в [1-2]:

K L [f ‖ g] \geq sup_{T} {E_{x \sim f} [T (x)] - E_{x \sim g} [\exp (T (x) - 1)]},

$\mathrm{KL}[f \Vert g] \ge \sup_{T} \left\{ \mathbb{E}_{x\sim f}\left[ T(x) \right] - \mathbb{E}_{x\sim g} \left[ \exp \left( T(x) - 1 \right)\right] \right\},$

T : X \to R

$T:\mathcal{X}\to\mathbb{R}$

T (x) = 1 + \ln [\frac{f (x)}{g (x)}]

$T(x) = 1 + \ln \left[ \frac{f(x)}{g(x)} \right]$

$f$ $g$ $T(x)$

Ссылки:

[1] Нгуен Х., Уэйнрайт М.Дж. и Джордан М.И., 2010 г. Оценка функционалов расходимости и отношения правдоподобия путем выпуклой минимизации риска. IEEE Труды по теории информации, 56 (11), с.5847-5861.

[2] Новозин С., Чеке Б. и Томиока Р., 2016 г. f-gan: Обучение генеративных нейронных пробоотборников с использованием минимизации вариационной дивергенции. В Достижения в нейронных системах обработки информации (стр. 271-279).

— Cuong
источник