Дивергенция Кульбака-Лейблера имеет несколько хороших свойств, одним из которых является то, что K L [ q ; р ] вид областей, где q ( x ) имеет р ( х ) массу, а and ( 𝑥 ) имеет нулевую массу. Это может выглядеть как ошибка, но на самом деле это особенность в определенных ситуациях.
Если вы пытаетесь найти аппроксимации для сложного (неразрешимого) распределения р ( х ) с помощью ( q ( x ) приближенного распределения 𝑞 ( 𝑥 ),
вы хотите быть абсолютно уверены, что любое 𝑥, которое было бы очень маловероятным, можно извлечь из р ( х ) также было бы очень маловероятно получить из q ( x ) . То, что у KL есть это свойство, легко показать: есть q ( x ) l o g [ q ( x ) / p ( x )] в подынтегральном выражении. Когда 𝑞 (𝑥) мало, ар ( х ) нет, это нормально. Но когдар ( х ) мало, оно очень быстро растет, еслиq ( x ) тоже не мало. Итак, если вы выбираетеq ( x ) чтобы минимизироватьК л [ q ; р ] , очень маловероятно, чтоq ( x ) выделит много массы в регионах, гдер ( х ) близка к нулю.
Дивергенция Дженсена-Шеннона не имеет этого свойства. Он хорошо себя ведет, когда р ( х ) и q ( x ) малы. Это означает, что он не будет оштрафован так сильно, как распределение q ( x ) из которого вы можете р ( х ) значения, которые невозможны в 𝑝 ( 𝑥 ) .