Дивергенция Кульбака-Лейблера не является собственно метрикой, поскольку она не симметрична, а также не удовлетворяет неравенству треугольника. Таким образом, «роли», которые играют эти два распределения, различны, и важно распределить эти роли в соответствии с изучаемым явлением реального мира.
Когда мы пишем (ОП вычислил выражение, используя логарифмы с базой 2)
К ( П| | Q)= ∑яжурнал2( ря/ дя) ря
мы рассматриваем распределение как «целевое распределение» (обычно считается истинным), которое мы аппроксимируем, используя Q- распределение.пQ
Сейчас,
Σяжурнал2( ря/ дя) ря= ∑яжурнал2( ря) ря- ∑яжурнал2( дя) ря= - H( P) - Eп( Ин( Q ) )
где - энтропия Шеннона распределения P, а - E P ( ln ( Q ) ) называется «перекрестной энтропией P и Q » - также несимметричной.ЧАС( P)п−EP(ln(Q))PQ
Письмо
K(P||Q)=H(P,Q)−H(P)
(здесь также порядок, в котором мы записываем распределения в выражении кросс-энтропии, имеет значение, поскольку он также не является симметричным), позволяет нам видеть, что KL-дивергенция отражает увеличение энтропии по сравнению с неизбежной энтропией распределения ,P
Таким образом, нет , KL-дивергенцию лучше не интерпретировать как «меру расстояния» между распределениями, а скорее как меру увеличения энтропии из-за использования приближения к истинному распределению, а не самого истинного распределения .
Итак, мы находимся в Теории информации земли. Чтобы услышать это от мастеров (Cover & Thomas) "
... если бы мы знали истинное распределение случайной величины, мы могли бы построить код со средней длиной описания H ( P ) . Если бы вместо этого мы использовали код для распределения Q , нам понадобилось бы в среднем H ( P ) + K ( P | | Q ) битов для описания случайной величины.PH(P)QH(P)+K(P||Q)
Такие же мудрые люди говорят
... это не истинное расстояние между распределениями, так как оно не симметрично и не удовлетворяет неравенству треугольника. Тем не менее, часто полезно рассматривать относительную энтропию как «расстояние» между распределениями.
Но этот последний подход полезен главным образом, когда кто-то пытается минимизировать KL-расхождение, чтобы оптимизировать некоторую процедуру оценки. Для интерпретации его числового значения как такового оно бесполезно, и следует предпочесть подход «увеличение энтропии».
Для конкретных распределений вопроса (всегда с использованием логарифмов base-2)
K(P||Q)=0.49282,H(P)=1.9486
QP