Расхождение Кульбака-Лейблера БЕЗ теории информации


23

После долгих размышлений о Cross Validated я все еще не чувствую, что я ближе к пониманию дивергенции KL вне области теории информации. Это довольно странно, когда кто-то с математическим образованием находит, что гораздо легче понять объяснение теории информации.

Чтобы изложить мое понимание на фоне теории информации: если у нас есть случайная переменная с конечным числом результатов, существует оптимальное кодирование, которое позволяет нам сообщать результат кому-то еще, в среднем самое короткое сообщение (я считаю, что проще всего картинка в терминах битов). Ожидаемая длина сообщения, необходимого для сообщения результата, определяется как если используется оптимальное кодирование. Если бы вы использовали субоптимальное кодирование, то дивергенция KL в среднем говорит нам, насколько длиннее будет наше сообщение.

αpαlog2(pα)

Мне нравится это объяснение, потому что оно довольно интуитивно касается асимметрии дивергенции KL. Если у нас есть две разные системы, то есть две загруженные монеты, которые загружаются по-разному, они будут иметь разные оптимальные кодировки. Я как-то инстинктивно не чувствую, что использование кодировки второй системы для первой «одинаково плохо» для кодирования первой системы для второй. Не вдаваясь в мыслительный процесс того, как я себя убедил, я теперь довольно счастлив, что дает вам эту "дополнительную ожидаемую длину сообщения", когда используется кодировка для .

αpα(log2qαlog2pα)
qp

Тем не менее, большинство определений дивергенции KL, включая Википедию, затем делают утверждение (сохраняя его в дискретных терминах, чтобы его можно было сравнить с интерпретацией теории информации, которая работает гораздо лучше в дискретных терминах, поскольку биты дискретны), что если у нас есть две дискретные вероятности распределений, то KL предоставляет некоторую метрику «насколько они различны». Мне еще предстоит увидеть одно объяснение того, как эти два понятия связаны между собой. Кажется, я помню, что в своей книге о выводах Дейв Маккей подчеркивает, что сжатие и вывод данных в основном одно и то же, и я подозреваю, что мой вопрос действительно связан с этим.

Независимо от того, так это или нет, вопрос, который я имею в виду, касается проблем логического вывода. (Сохраняя вещи дискретными), если у нас есть два радиоактивных образца, и мы знаем, что один из них - это определенный материал с известной радиоактивностью (это сомнительная физика, но давайте притворимся, что Вселенная работает так), и, таким образом, мы знаем «истинное» распределение количество радиоактивных щелчков, которые мы должны измерить, должно быть пуассоновским с известным λ Справедливо ли построить эмпирическое распределение для обоих образцов и сравнить их расхождения KL с известным распределением и сказать, что более низкий уровень вероятности будет тем материалом?

Если отойти от сомнительной физики, если я знаю, что два образца взяты из одного и того же распределения, но я знаю, что они выбраны не случайно, сравнение их расхождений KL с известным глобальным распределением дало бы мне ощущение того, «насколько смещены» образцы. Относительно одного и другого в любом случае?

И, наконец, если ответ на предыдущие вопросы - да, то почему? Можно ли понять эти вещи только со статистической точки зрения без каких-либо (возможно, незначительных) связей с теорией информации?


1
Смотрите мой ответ здесь: stats.stackexchange.com/questions/188903/…, который не относится к теории информации
kjetil b halvorsen

1
Является ли дивергенция KL чисто теоретической информацией? Я знаю, что это дает взаимную информацию между байесовским априорным и задним или чем-то в этом роде, и я помню, как однажды видел это в контексте преобразований / сопряжений Фенчела (теория больших уклонений), но в любом случае я думал, что это была теоретико-информационная концепция ,
Chill2Macht

Ответы:


23

Существует чисто статистический подход к дивергенции Кульбака-Лейблера: возьмите выборку iid из неизвестного распределения p и рассмотрите потенциальное соответствие семейством распределений, F = { p θX1,,Xnp Соответствующая вероятность определяется как L ( θ | x 1 , , x n ) = n i = 1 p θ ( x i ) и его логарифм равен ( θ | x 1 , , x n ) = n i = 1 log p θ ( x i )

F={pθ, θΘ}
L(θ|x1,,xn)=i=1npθ(xi)
(θ|x1,,xn)=i=1nlogpθ(xi)
Следовательно, которая является интересной частью расхождения Кульбака-Лейблера между p θ и p H ( p θ | p ) def = log { p ( x ) / p θ ( x ) }
1n(θ|x1,,xn)E[logpθ(X)]=logpθ(x)p(x)dx
pθp другая часть log { p ( x ) }
H(pθ|p)=deflog{p(x)/pθ(x)}p(x)dx
имеет минимум [в θ ] для H ( p θ | p ), равный нулю.
log{p(x)}p(x)dx
θH(pθ|p)

Книга, которая связывает расхождение, теорию информации и статистический вывод, является Оптимальной оценкой параметров Риссанена , которую я рассмотрел здесь .


Есть ли возможность увидеть числовой пример этого?
Пол Ушак

Ну, я имею в виду увидеть некоторые реальные цифры. Теория милая, но мир движется на цифрах. Нет примеров дивергенции KL, в которых используются действительные числа, поэтому я пришел к выводу, что это теория без возможного применения. ОП обсудил длину сообщений в битах и ​​сжатие данных. Я имел в виду любой пример, в котором было много битов ...
Пол Ушак

2
@PaulUszak: если я скажу вам, что расстояние Куллабака-Лейблера между распределением N (0,1) и N (1,1) равно 1/2, как это поможет?
Сиань

2
@ Сиань: должна быть какая-то связь между этим числом 1/2 и мощностью соответствующего теста отношения правдоподобия?
kjetil b halvorsen

7
+1 Повторяю ветку комментариев: разум смущает мысль, что любая концепция, которая не может быть сведена к «количеству битов», бесполезна.
whuber

8

Вот статистическая интерпретация дивергенции Кульбака-Лейблера, свободно взятая из IJ Good ( Вес доказательств: краткий обзор , Bayesian Statistics 2, 1985).

Вес доказательств.

x1,x2,,xnf0H1H2f0H1={f1}H2={f2}f0f1f2

x=(x1,,xn)H1H2

W(x)=logf1(x)f2(x).
PH0H1W
logP(H0|x)P(H1|x)=W(x)+logP(H0)P(H1).
W(x1,,xn)=W(x1)++W(xn).
W(x)xH1H2

xW(x)W(x)>2

Расхождение Кульбака-Лейблера

f1f2xf1

KL(f1,f2)=Exf1W(x)=f1logf1f2.

xf1H1={f1}H2

Exf1W(x)0.

1

I have yet to see a single explanation of how these two concepts are even related.

I don't know much about information theory, but this is how I think about it: when I hear an information theory person say "length of the message," my brain says "surprise." Surprise is 1.) random and 2.) subjective.

By 1.) I mean that "surprise" is just a transformation of your random variable X, using some distribution q(X). Surprise is defined as logq(X), and this is definition whether or not you have a discrete random variable.

Surprise is a random variable, so eventually we want to take an expectation to make it a single number. By 2), when I say "subjective," I mean you can use whatever distribution you want (q), to transform X. The expectation, however, will always be taken with respect to the "true" distribution, p. These may or may not be equal. If you transform with the true p, you have Ep[logp(X)], that's entropy. If some other distribution q that's not equal to p, you get Ep[logq(X)], and that's cross entropy. Notice how if you use the wrong distribution, you always have a higher expected surprise.

Instead of thinking about "how different they are" I think about the "increase in expected surprise from using the wrong distribution." This is all from properties of the logarithm.

Ep[log(p(X)q(X))]=Ep[logq(X)]Ep[logp(X)]0.

Edit

Response to: "Can you elaborate on how log(q(x)) is a measure of "surprise"? This quantity alone seems meaningless, as it is not even invariant under linear transforms of the sample space (I assume q is a pdf)"

For one, think about what it maps values of X to. If you have a q that maps a certain value x to 0, then log(0)=. For discrete random variables, realizations with probability 1 have "surprise" 0.

Second, log is injective, so there is no way rarer values get less surprise than less rare ones.

For continuous random variables, a q(x)>1 will coincide with a negative surprise. I guess this is a downside.

Olivier seems to be hinting at a property his "weight of evidence" quantity has that mine does not, which he calls an invariance under linear transformations (I'll admit I don't totally understand what he means by sample space). Presumably he is talking about if XqX(x), then Y=aX+bqx((yb)/a)|1/a| as long as X is continuous. Clearly logqX(X)logqY(Y) due to the Jacobian.

I don't see how this renders the quantity "meaningless," though. In fact I have a hard time understanding why invariance is a desirable property in this case. Scale is probably important. Earlier, in a commment, I mentioned the example of variance, wherein the random variable we are taking the expectation of is (XEX)2. We could interpret this as "extremeness." This quantity suffers from lack of invariance as well, but it doesn't render meaningless peoples' intuition about what variance is.

Edit 2: looks like I'm not the only one who thinks of this as "surprise." From here:

The residual information in data y conditional on θ may be defined (up to a multiplicative constant) as 2log{p(yθ)} (Kullback and Leibler, 1951; Burnham and Anderson, 1998) and can be interpreted as a measure of 'surprise' (Good, 1956), logarithmic penalty (Bernardo, 1979) or uncertainty.


1
Can you elaborate on how log(q(x)) is a measure of "surprise"? This quantity alone seems meaningless, as it is not even invariant under linear transforms of the sample space (I assume q is a pdf).
Olivier

1
Let T be the transform T(X)=aX, a0. Since T is invertible, observing T(x) is, for me, the same as observing x: I can easily transform one into the other. Why should I be more surprised at observing T(x) than I am at observing x? (if logqT(X)(T(x))>logqX(x)) Invariance under invertible transforms is necessary to avoid this contradiction.
Olivier

@Olivier yes this was all covered in my edit already. I don't see a contradiction. Consider variance, where you take the expectation of the transformation (XE[X])2. You could regard this random quantity as "extremeness." But you don't see me complaining about the lack of invariance
Taylor
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.