Оцените расхождение Куллбека Лейблера (КЛ) с Монте-Карло


10

Я хочу оценить KL-расхождение между двумя непрерывными распределениями f и g. Однако я не могу записать плотность ни для f, ни для g. Я могу сделать выборку как из f, так и из g с помощью какого-либо метода (например, цепочки Маркова Монте Карло).

Расхождение KL от f до g определяется следующим образом

DKL(f||g)=f(x)log(f(x)g(x))dx

Это ожидание log(f(x)g(x))относительно f, чтобы вы могли представить некоторую оценку Монте-Карло

1NiNlog(f(xi)g(xi))

Где я индексирует N выборок, которые взяты из f (то есть xif() для i = 1, ..., N)

Однако, поскольку я не знаю f () и g (), я даже не могу использовать эту оценку Монте-Карло. Каков стандартный способ оценки KL в этой ситуации?

РЕДАКТИРОВАТЬ: Я НЕ знаю ненормализованной плотности для f () или g ()


Вы рассматривали возможность использования ecdf?
Тоби

это будет работать, но это может быть сколь угодно медленным для сложного выбора f и g (близких или близких хвостов). Если вы решите игнорировать образцы вдали от хвостов, вам может повезти с верхним ограничением рока.
Кристиан Чепмен

Ответы:


7

Я предполагаю, что вы можете оценить и g с точностью до нормализующей константы. Обозначим f ( x ) = f u ( x ) / c f и g ( x ) = g u ( x ) / c g .fgf(x)=fu(x)/cfg(x)=gu(x)/cg

Последовательная оценка, которая может использоваться, является где г = 1 / п

DKL^(f||g)=[n1jfu(xj)/πf(xj)]11NiN[log(fu(zi)gu(zi))fu(zi)πr(zi)]log(r^)
является оценочной выборкой важности для отношенияcf/cg. Здесь вы используетеπfиπg вкачестве инструментальных плотностей дляfuиguсоответственно иπrдля целевого логарифмического отношения ненормализованных плотностей.
(1)r^=1/n1/njfu(xj)/πf(xj)jgu(yj)/πg(yj).
cf/cgπfπgfuguπr

Итак, пусть , { y i } π g и { z i } π r . Числитель (1) сходится к c f . Знаменатель сходится к c g . Соотношение согласуется по теореме о непрерывном отображении. Лог отношения является постоянным путем непрерывного отображения снова.{xi}πf{yi}πg{zi}πrcfcg

Что касается другой части оценки, по закону больших чисел.

1NiN[log(fu(zi)gu(zi))fu(zi)πr(zi)]ascfE[log(fu(zi)gu(zi))]

Моя мотивация заключается в следующем:

Так что я просто разбил его на куски.

DKL(f||g)=f(x)log(f(x)g(x))dx=f(x){log[fu(x)gu(x)]+log[cgcf]}dx=Ef[logfu(x)gu(x)]+log[cgcf]=cf1Eπr[logfu(x)gu(x)fu(x)πr(x)]+log[cgcf].

Для получения дополнительных идей о том, как смоделировать отношение правдоподобия, я нашел несколько документов: https://projecteuclid.org/download/pdf_1/euclid.aos/1031594732


(+1) Стоит отметить, что выборка важности может иметь чрезвычайно высокую дисперсию (даже бесконечную дисперсию), если целевое распределение имеет более толстые хвосты, чем распределение, из которого вы выбираете, и / или количество измерений вообще велико.
Дэвид Дж. Харрис,

@ DavidJ. Харрис, очень, очень верно
Тейлор,

6

Здесь я предполагаю, что вы можете выбирать только из моделей; Ненормализованная функция плотности недоступна.

Ты пишешь что

DKL(f||g)=f(x)log(f(x)g(x)=:r)dx,

где я определил отношение вероятностей к . Алекс Смола пишет, хотя в другом контексте вы можете легко оценить эти коэффициенты, просто обучив классификатор. Предположим, вы получили классификатор p ( f | x ) , который может сообщить вам вероятность того, что наблюдение x было сгенерировано f . Отметим, что p ( g | x ) = 1 - p ( f | x ) . Затем:rp(f|x)xfp(g|x)=1p(f|x)

r=p(x|f)p(x|g)=p(f|x)p(x)p(g)p(g|x)p(x)p(f)=p(f|x)p(g|x),

p(g)=p(f)

Получить такой классификатор может быть довольно легко по двум причинам.

fg

fg


0

Помимо метода вероятностного классификатора, упомянутого @bayerj, вы также можете использовать нижнюю границу расхождения KL, полученную в [1-2]:

KL[fg]supT{Exf[T(x)]Exg[exp(T(x)1)]},
T:XR
T(x)=1+ln[f(x)g(x)]

fgT(x)

Ссылки:

[1] Нгуен Х., Уэйнрайт М.Дж. и Джордан М.И., 2010 г. Оценка функционалов расходимости и отношения правдоподобия путем выпуклой минимизации риска. IEEE Труды по теории информации, 56 (11), с.5847-5861.

[2] Новозин С., Чеке Б. и Томиока Р., 2016 г. f-gan: Обучение генеративных нейронных пробоотборников с использованием минимизации вариационной дивергенции. В Достижения в нейронных системах обработки информации (стр. 271-279).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.