Дивергенция KL является естественным способом измерения разницы между двумя вероятностными распределениями. Энтропия распределения p дает минимально возможное количество битов в сообщении, которое потребуется (в среднем) для кодирования без потерь событий, извлеченных из p . Достижение этой границы потребовало бы использования оптимального кода, разработанного для p , который назначает более короткие кодовые слова событиям с более высокой вероятностью. D K L ( p ∥ q ) можно интерпретировать как ожидаемое количество дополнительных битов в сообщении, необходимых для кодирования событий, извлеченных из истинного распределения pH(p)pppDKL(p∥q)p, если использовать оптимальный код для распределения а не p . У этого есть некоторые хорошие свойства для сравнения распределений. Например, если p и q равны, то дивергенция KL равна 0.qppq
Кросс-энтропия может быть интерпретирована как количество битов на сообщение, необходимое (в среднем) для кодирования событий, взятых из истинного распределения p , если используется оптимальный код для распределения q . Обратите внимание на разницу: D K L ( p ∥ q ) измеряет среднее количество дополнительных битов в сообщении, тогда как H ( p , q ) измеряет среднее количество общих битов в сообщении. Это правда, что для фиксированного р , Н ( рH(p,q)pqDKL(p∥q)H(p,q)p будет расти по мере того, как q будет все больше отличаться от p . Но, если p не является фиксированным, трудно интерпретировать H ( p , q ) как абсолютную меру разности, потому что она растет с энтропией p .H(p,q)qppH(p,q)p
Расхождение KL и кросс-энтропия связаны как:
DKL(p∥q)=H(p,q)−H(p)
Из этого выражения видно, что когда и q равны, перекрестная энтропия не равна нулю; скорее, это равно энтропии р .pqp
Перекрестная энтропия обычно проявляется в функциях потерь в машинном обучении. Во многих из этих ситуаций рассматривается как «истинное» распределение, а q как модель, которую мы пытаемся оптимизировать. Например, в задачах классификации обычно используемая кросс-энтропийная потеря (или log-потеря ) измеряет кросс-энтропию между эмпирическим распределением меток (с учетом входных данных) и распределением, прогнозируемым классификатором. Эмпирическое распределение для каждой точки данных просто присваивает вероятность 1 классу этой точки данных, а 0 - всем другим классам. Примечание: перекрестная энтропия в этом случае оказывается пропорциональной отрицательной логарифмической вероятности, поэтому ее минимизация эквивалентна максимизации вероятности.pq
Обратите внимание, что (эмпирическое распределение в этом примере) является фиксированным. Таким образом, было бы эквивалентно сказать, что мы минимизируем расхождение KL между эмпирическим распределением и прогнозируемым распределением. Как видно из вышеприведенного выражения, оба связаны аддитивным слагаемым H ( p ) (энтропия эмпирического распределения). Поскольку p фиксировано, H ( p )pH(p)pH(p)не изменяется с параметрами модели и может быть проигнорировано в функции потерь. Мы могли бы все еще хотеть говорить о дивергенции KL по теоретическим / философским причинам, но в этом случае они эквивалентны с точки зрения решения проблемы оптимизации. Это может быть неверно для других применений кросс-энтропии и дивергенции KL, где может варьироваться.p
t-SNE соответствует распределению во входном пространстве. Каждая точка данных отображается в пространство внедрения, где подходит соответствующее распределение q . Попытки алгоритм для регулировки , чтобы минимизировать вложение D K L ( р ∥ Q ) . Как и выше, р удерживается фиксированным. Таким образом, с точки зрения задачи оптимизации минимизация расхождения KL и минимизация кросс-энтропии эквивалентны. Действительно, Ван дер Маатен и Хинтон (2008) говорят в разделе 2: «Естественная мера верности, с которой q j ∣ i моделирует p j ∣ ipqDKL(p∥q)pqj∣ipj∣i является дивергенцией Кульбака-Лейблера (которая в этом случае равна кросс-энтропии с точностью до аддитивной постоянной). "
Ван дер Маатен и Хинтон (2008) . Визуализация данных с использованием t-SNE.