Адаптация расстояния Кульбака-Лейблера?


28

Посмотри на эту картину: введите описание изображения здесь

Если мы возьмем образец из красной плотности, то ожидается, что некоторые значения будут меньше 0,25, тогда как невозможно получить такой образец из синего распределения. Как следствие, расстояние Кульбака-Лейблера от красной плотности до голубой плотности равно бесконечности. Тем не менее, эти две кривые не настолько различны, в некотором «естественном смысле».

Вот мой вопрос: существует ли адаптация расстояния Кульбака-Лейблера, которая позволила бы конечное расстояние между этими двумя кривыми?


1
В каком «естественном смысле» эти кривые «не так отчетливы»? Как эта интуитивная близость связана с каким-либо статистическим свойством? (Я могу придумать несколько ответов, но мне интересно, что ты имеешь в виду.)
whuber

1
Ну ... они довольно близки друг к другу в том смысле, что оба определены на положительных значениях; они оба увеличиваются, а затем уменьшаются; у обоих на самом деле одно и то же ожидание; и Кульбак Лейблер расстояние «маленький» , если ограничить в части оси х ... Но для того , чтобы связать эти интуитивные представления в любой статистической собственности, я должен был бы некоторое Строгое определение этих функций ...
ocram

Ответы:


18

Вы можете взглянуть на главу 3 Devroye, Gyorfi и Lugosi, «Вероятностная теория распознавания образов» , Springer, 1996. См., В частности, раздел о расхождениях.f

f Дивергенции можно рассматривать как обобщение Кульбака-Лейблера (или, альтернативно, KL можно рассматривать как частный случай дивергенции).f

Общая форма:

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

где - это мера, которая доминирует над мерами, связанными с и а - выпуклая функция, удовлетворяющая . (Если и являются плотностями относительно меры Лебега, просто замените обозначение на и все готово.)p q f ( ) f ( 1 ) = 0 p ( x ) q ( x ) d x λ ( d x )λpqf()f(1)=0p(x)q(x)dxλ(dx)

Мы восстановим KL, взяв . Мы можем получить разность Хеллингера с помощью и получить полное изменение или расстояние , взяв, Последний даетf ( x ) = ( 1 - f(x)=xlogxL1f(x)= 1f(x)=(1x)2L1f(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

Обратите внимание, что этот последний, по крайней мере, дает вам конечный ответ.

В другой маленькой книге, озаглавленной « Оценка плотности: видL1 , Девройе настоятельно рекомендует использовать это последнее расстояние из-за его множества хороших свойств инвариантности (среди прочих). Эта последняя книга, вероятно, немного сложнее, чем первая, и, как следует из названия, немного более специализирована.


Приложение : Благодаря этому вопросу мне стало известно, что мера, которую предлагает @Didier, (с точностью до константы) известна как расхождение Дженсена-Шеннона. Если вы перейдете по ссылке на ответ, предоставленный в этом вопросе, то увидите, что квадратный корень этой величины на самом деле является метрикой и ранее был признан в литературе частным случаем дивергенции. , Мне показалось интересным, что мы, похоже, коллективно «заново изобрели» колесо (довольно быстро) посредством обсуждения этого вопроса. Интерпретация, которую я дал ему в комментарии ниже @ Ответ Дидье, также был ранее признан. На самом деле, все довольно аккуратно.f


1
Очень хорошо! Я попытаюсь найти «Вероятностную теорию распознавания образов» и понять ее главу 3!
Октябрь

1
хороший ответ, обратите внимание, что чаще всего определяется другим способом, что делает его половиной расстояния . L 1DTVL1
Робин Жирар

1
@robin, спасибо за ваш комментарий. Да, я понимаю это. Я просто пытался избежать грязной посторонней константы в экспозиции. Но, строго говоря, вы правы. Я обновил его соответственно.
кардинал

3
Ваше приложение - самая полезная часть информации, с которой я столкнулся на stats.SE. Всем моим самым теплым спасибо за это. Я просто воспроизвожу здесь ссылку, которую вы дали: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/… Endres and Schindelin, Новая метрика для распределения вероятностей, IEEE Trans. на инфо. Thy. том 49, нет. 3 июля 2003 г., стр. 1858-1860.
сделал

1
@Didier, ну, это был скорее счастливый случай, чем все остальное. Никто не отвечал на другой вопрос, поэтому я решил попытаться выяснить, в чем суть расхождения Дженсена-Шеннона. Как только я нашел определение, было разумно соединить два вопроса в моем приложении. Я рад, что вы нашли это полезным. С уважением.
кардинал

19

Расходимость Кульбака-Лейблера для относительно бесконечна, когда не является абсолютно непрерывным относительно , то есть когда существует измеримое множество такое, что и . Кроме того, дивергенция KL не является симметричной в том смысле, что в общем случае . Напомним, что Выходом из обоих этих недостатков, все еще основанным на расхождении KL, является введение средней точки Таким образом,κ(P|Q)PQPQAQ(A)=0P(A)0κ(PQ)κ(QP)

κ(PQ)=Plog(PQ).
R=12(P+Q).
Rявляется вероятностной мерой, а и всегда абсолютно непрерывны по отношению к . Следовательно, можно рассмотреть «расстояние» между и , все еще основанное на расхождении KL, но использующее , определяемое как Тогда неотрицательна и конечна для всех и , симметрична в том смысле, что для всех и , и тогда и только тогда .PQRPQR
η(P,Q)=κ(PR)+κ(QR).
η(P,Q)PQηη(P,Q)=η(Q,P)PQP = Qη(P,Q)=0P=Q

Эквивалентная формулировка

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

Приложение 1 Введение средней точки и не является произвольным в том смысле, что где минимум превышает набор вероятностных мер.PQ

η(P,Q)=min[κ(P)+κ(Q)],

Приложение 2 @ cardinal отмечает, что также является дивергенцией для выпуклой функции ηf

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).

2
@Marco, @Didier Piau, можно отметить, что предложение @ Didier является еще одним частным случаем дивергенции, где . ff(x)=xlogx(1+x)log(1+x2)
кардинал

1
@Marco, @Didier Piau, альтернативная формулировка, которая имеет некоторый вызывающий воспоминание характер: и т. Д. где . Другими словами, - это «разница между энтропией средней меры и Средняя энтропия мер ".η(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))η(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q))μ(x,y)=x+y212η(P,Q)
кардинал

3
Разве это не только расхождение Дженсена-Шеннона?
Мемминг


«где минимум превышает набор вероятностных мер». Мне нравится эта характеристика расхождения Дженсена – Шеннона. Есть ли где-нибудь доказательство этого?
user76284

10

Колмогорова расстояние между двумя распределениями и является SUP норма их CDFs. (Это наибольшее вертикальное расхождение между двумя графиками CDF.) Оно используется в распределительном тестировании, где - предполагаемое распределение, а - эмпирическая функция распределения набора данных.PQPQ

Трудно охарактеризовать это как «адаптацию» расстояния KL, но оно действительно отвечает другим требованиям быть «естественным» и конечным.

Кстати, поскольку дивергенция KL не является истинным «расстоянием», нам не нужно беспокоиться о сохранении всех аксиоматических свойств расстояния. Мы можем сохранить свойство неотрицательности, делая значения конечного применения любого монотонного преобразования для некоторого конечного значения . Например, обратная касательная будет в порядке.R+[0,C]C


1
Спасибо за ваше предложение о колмогоровской дистанции. Можете ли вы сделать свой комментарий о монотонной трансформации немного более явным? Thx
Октябрь

1
@ Марко Я не понимаю, как можно быть более явным. Вы хотите переформулировать то, что я написал, с помощью формулы, такой как или для с подразумевает для всех ? arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0
whuber

1
Да, это то, что я имел в виду :-) Я не был уверен, что применить преобразование. Теперь ясно,
спасибо

1
@ Марко: я потерян. Согласны ли вы на колмогоровское расстояние (которое всегда конечно, но не имеет ничего общего с расхождением КЛ)? Или для ограниченного монотонного преобразования дивергенции KL (такого как )? В примере вашего поста (и в любом другом, не совсем непрерывном примере) последний создает верхнюю точку преобразования ( если вы ). По сути, это отбрасывает любую идею более точной оценки расстояния между такими вероятностными показателями, чем утверждение, что они находятся далеко (независимо от того, кодируете ли вы это с помощью или имеет значения). arctanπ/2arctanπ/2+
сделал

@Didier Да, преобразованная дивергенция KL (при симметризации, как вы описываете) может не удовлетворять неравенству треугольника и, следовательно, не будет расстоянием, но все равно будет определять топологию (которая, вероятно, будет метризуемой). Таким образом, вы отказались бы от малого или ничего. Я остаюсь агностиком по поводу достоинств делать что-либо из этого: мне кажется, что это просто способ справиться с трудностями, связанными с бесконечными значениями расхождения KL, в первую очередь.
whuber

2

Да, Бернардо и Реуда определили нечто, называемое «внутренним расхождением», которое для всех целей является «симметризованной» версией KL-дивергенции. Принятие расхождения KL от до за Внутреннее расхождение определяется как:PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

Поиск внутреннего несоответствия (или критерия байесовского критерия) даст вам несколько статей по этому показателю.

В вашем случае вы бы просто взяли KL-дивергенцию, которая конечна.

Другая альтернативная мера для KL - расстояние Хеллингера

РЕДАКТИРОВАТЬ: уточнение, некоторые высказанные замечания предположили, что внутреннее расхождение не будет конечным, когда одна плотность 0, а другая нет. Это неверно, если операция оценки нулевой плотности выполняется как предел или . Предел четко определен, и он равен для одной из дивергенций KL, а другая будет расходиться. Чтобы увидеть это примечание:Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

Принимая предел как по области интеграла, второй интеграл расходится, и первый интеграл сходится к по этой области (предполагая, что условия таковы, что можно поменять пределы и интегрирование). Это потому, что . В силу симметрии в и результат также имеет место для .P00limz0zlog(z)=0PQQ


1
Даже «внутреннее несоответствие» будет бесконечным, когда равно нулю с положительной вероятностью для и наоборот, даже если и в остальном идентичны. PQPQ
whuber

1
Да ... Я боюсь, что внутреннее несоответствие не соответствует требованию. Но спасибо за предложение. Любое другое предложение будет оценено.
октября

1
Это делает выполнить требование, если ограничить поддержку синей плотности , чтобы быть там , где она имеет строго положительную поддержку, так же , как у вас есть для красного (> 0)
probabilityislogic

3
@probabilityislogic: Я не понимаю ваши последние замечания. Во- первых, давайте дадим свои собственные имена для понятий , связанных и сказать , что абсолютно непрерывна относительно (обозначаемое ) , если для любого измеримого , означает , Теперь, несмотря на ваши предельными соображения несколько загадочная (для меня), ваш конечна тогда и только тогда или . ... / ...PQPQAQ(A)=0P(A)=0δ(P,Q)PQQP
Сделал

2
... / ... Выход из головоломки вы , кажется, вырыли в возможно ввести в средней точке меры . Поскольку и , величина всегда конечна. Кроме того, тогда и только тогда, когда и симметрично. Следовательно , действительно измеряет своего рода "расстояние" между и . P P + Q Q P + Q η ( P , Q ) : = κ ( P | P + Q ) + κ ( Q | P + Q ) η ( P , Q ) = 0 P = Q η η ( P , Q ) P QP+QPP+QQP+Qη(P,Q):=κ(P|P+Q)+κ(Q|P+Q)η(P,Q)=0P=Qηη(P,Q)PQ
сделал
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.