Анализ расхождения Кульбака-Лейблера

18

Рассмотрим следующие два вероятностных распределения.

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

Я рассчитал дивергенцию Кульбака-Лейблера, равную , я хочу знать, в целом, что показывает это число? Вообще, дивергенция Кульбака-Лейблера показывает мне, насколько далеко одно распределение вероятностей от другого, верно? Это похоже на терминологию энтропии, но что это означает с точки зрения чисел? Если я получу результат с результатом 0,49, могу ли я сказать, что примерно одно распределение далеко от другого на 50%? $0.492820258$

interpretation information-theory kullback-leibler

— дато датуашвили
источник

Смотрите обсуждение здесь, которое может помочь.

— Glen_b

Вы читали статью в Википедии?

— Нил Г

42

Дивергенция Кульбака-Лейблера не является собственно метрикой, поскольку она не симметрична, а также не удовлетворяет неравенству треугольника. Таким образом, «роли», которые играют эти два распределения, различны, и важно распределить эти роли в соответствии с изучаемым явлением реального мира.

Когда мы пишем (ОП вычислил выражение, используя логарифмы с базой 2)

К (п | | Q) знак равно \underset{я}{Σ} {журнал}_{2} (п_{я} / Q_{я}) п_{я}

$\mathbb K\left(P||Q\right) = \sum_{i}\log_2 (p_i/q_i)p_i$

мы рассматриваем распределение как «целевое распределение» (обычно считается истинным), которое мы аппроксимируем, используя распределение. $P$ $Q$

Сейчас,

\underset{я}{Σ} {журнал}_{2} (п_{я} / Q_{я}) п_{я} знак равно \underset{я}{Σ} {журнал}_{2} (п_{я}) п_{я} - \underset{я}{Σ} {журнал}_{2} (Q_{я}) п_{я} знак равно - ЧАС (п) - Е_{п} (пер (Q))

$\sum_{i}\log_2 (p_i/q_i)p_i = \sum_{i}\log_2 (p_i)p_i-\sum_{i}\log_2 (q_i)p_i = -H(P) - E_P(\ln(Q))$

где - энтропия Шеннона распределения а называется «перекрестной энтропией и » - также несимметричной. $H(P)$ $P$ $-E_P(\ln(Q))$ $P$ $Q$

Письмо

K (P | | Q) = H (P, Q) - H (P)

$\mathbb K\left(P||Q\right) = H(P,Q) - H(P)$

(здесь также порядок, в котором мы записываем распределения в выражении кросс-энтропии, имеет значение, поскольку он также не является симметричным), позволяет нам видеть, что KL-дивергенция отражает увеличение энтропии по сравнению с неизбежной энтропией распределения , $P$

Таким образом, нет , KL-дивергенцию лучше не интерпретировать как «меру расстояния» между распределениями, а скорее как меру увеличения энтропии из-за использования приближения к истинному распределению, а не самого истинного распределения .

Итак, мы находимся в Теории информации земли. Чтобы услышать это от мастеров (Cover & Thomas) "

... если бы мы знали истинное распределение случайной величины, мы могли бы построить код со средней длиной описания . Если бы вместо этого мы использовали код для распределения , нам понадобилось бы в среднем битов для описания случайной величины. $P$ $H(P)$ $Q$ $H(P) + \mathbb K (P||Q)$

Такие же мудрые люди говорят

... это не истинное расстояние между распределениями, так как оно не симметрично и не удовлетворяет неравенству треугольника. Тем не менее, часто полезно рассматривать относительную энтропию как «расстояние» между распределениями.

Но этот последний подход полезен главным образом, когда кто-то пытается минимизировать KL-расхождение, чтобы оптимизировать некоторую процедуру оценки. Для интерпретации его числового значения как такового оно бесполезно, и следует предпочесть подход «увеличение энтропии».

Для конкретных распределений вопроса (всегда с использованием логарифмов base-2)

K (P | | Q) = 0.49282, H (P) = 1.9486

$\mathbb K\left(P||Q\right) = 0.49282,\;\;\;\; H(P) = 1.9486$

$Q$ $P$

— Алекос Пападопулос
источник

Чрезвычайно полезный и информативный ответ.

— MadHatter

1

KL Divergence измеряет потери информации, необходимые для представления символа из P, используя символы из Q. Если вы получили значение 0,49, это означает, что в среднем вы можете кодировать два символа из P с двумя соответствующими символами из Q плюс один бит дополнительной информации ,

— Аарон
источник

1

$P$ $Q$ $P$

— Нил Г
источник