Учебник «Элементы теории информации» дает нам пример:
Например, если бы мы знали истинное распределение p случайной величины, мы могли бы построить код со средней длиной описания H (p). Если бы вместо этого мы использовали код для распределения q, нам понадобилось бы в среднем H (p) + D (p || q) битов для описания случайной величины.
Перефразируя приведенное выше утверждение, мы можем сказать, что если мы изменим распределение информации (с q на p), нам потребуется в среднем D (p || q) дополнительных битов для кодирования нового распределения.
Иллюстрация
Позвольте мне проиллюстрировать это, используя одно его применение в обработке естественного языка.
Считаю , что большая группа людей, помеченный B, являются посредниками , и каждый из них назначается задачей выбрать существительное от turkey
, animal
и book
и передач его на C. Существует имя парня , который может послать каждый из них по электронной почте , чтобы дать им некоторые намеки. Если никто из группы не получил электронное письмо, они могут поднять брови и некоторое время сомневаться в том, что нужно С. И вероятность каждого выбранного варианта составляет 1/3. Единственное в своем роде распределение (если нет, это может касаться их собственных предпочтений, и мы просто игнорируем такие случаи).
Но если им дают глагол, например baste
, 3/4 из них могут выбрать turkey
и 3/16 выбрать animal
и 1/16 выбрать book
. Тогда сколько информации в битах в среднем получил каждый из медиаторов, узнав глагол? Это:
D(p(nouns|baste)||p(nouns))=∑x∈{turkey,animal,book}p(x|baste)log2p(x|baste)p(x)=34∗log23413+316∗log231613+116∗log211613=0.5709 bits
Но что, если дан глагол read
? Мы можем представить, что все они будут выбирать book
без колебаний, тогда среднее значение получения информации для каждого посредника от глагола read
будет:
D(p(nouns|read)||p(nouns))=∑x∈{book}p(x|read)log2p(x|read)p(x)=1∗log2113=1.5849 bits
Мы видим, что глагол read
может дать посредникам больше информации. И это то, что может измерить относительная энтропия.
Давайте продолжим нашу историю. Если C подозревает, что существительное может быть неправильным, потому что A сказал ему, что он мог ошибиться, отправив неправильный глагол посредникам. Тогда сколько информации в битах может дать такая плохая новость C?
1) если глаголом, данным A, было baste
:
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
2) а что если глагол был read
?
D(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
Поскольку C никогда не знает, какими будут два других существительных, и любое слово в словаре будет возможно.
Мы видим, что дивергенция KL асимметрична.
Я надеюсь, что я прав, и если нет, пожалуйста, прокомментируйте и помогите исправить меня. Заранее спасибо.