Почему дивергенция КЛ неотрицательна?

С точки зрения теории информации у меня есть такое интуитивное понимание:

Скажем, есть два ансамбля $A$ и $B$ которые состоят из одного и того же набора элементов, помеченных знаком $x$ . $p(x)$ и $q(x)$ - разные распределения вероятностей по ансамблю $A$ и $B$ соответственно.

С точки зрения теории информации, представляет собой наименьшее количество битов , которое требуется для записи элемент для ансамбля . Так что ожидание можно интерпретировать как , по меньшей мере , сколько бит , что нам нужно для записи элемент в в среднем. $\log_{2}(P(x))$ $x$ $A$

\sum_{x \in e n s e m b l e} - p (x) \ln (p (x))

$\sum_{x \in ensemble}-p(x)\ln(p(x))$

A

$A$

Поскольку эта формула устанавливает нижнюю границу для битов, которые нам нужны в среднем, так что для другого ансамбля который приводит к другому распределению вероятности , граница, которую она дает для каждого элемента , безусловно, не будет битом, который определяется как , что означает принятие ожидания, $B$ $q(x)$ $x$ $p(x)$

\sum_{x \in e n s e m b l e} - p (x) \ln (q (x))

$\sum_{x\in ensemble}-p(x)\ln(q(x))$ эта средняя длина, безусловно, будет больше, чем предыдущая, что приводит к

я не ставлюздесь

поскольку

различны.

\sum_{x \in e n s e m b l e} p (x) \frac{\ln (p (x))}{\ln (q (x))} > 0

$\sum_{x\in ensemble }p(x)\frac{\ln(p(x))}{\ln(q(x))} > 0$

\geq

$\ge$

p (x)

$p(x)$

q (x)

$q(x)$

Это мое интуитивное понимание, существует ли чисто математический способ доказать, что дивергенция КЛ неотрицательна? Проблема может быть сформулирована как:

$p(x)$ $q(x)$ $\int_{-\infty}^{+\infty}p(x)dx = 1$ $\int_{-\infty}^{+\infty}q(x)dx = 1$

\int_{- \infty}^{+ \infty} p (x) \ln \frac{p (x)}{q (x)}

$\int_{-\infty}^{+\infty}p(x)\ln\frac{p(x)}{q(x)}$

Как это можно доказать? Или это можно доказать без дополнительных условий?

information-theory kullback-leibler

— meTchaikovsky
источник

Если вы понимаете доказательство неравенства Фано, легко вывести неотрицательность относительной энтропии.

— Лернер Чжан

Доказательство 1:

$\ln a \leq a-1$ $a \gt 0$

$-D_{KL}(p||q) \leq 0$ $D_{KL}(p||q) \geq 0$

\begin{aligned} - D (p | | q) & = - \sum_{x} p (x) \ln \frac{p (x)}{q (x)} \\ = \sum_{x} p (x) \ln \frac{q (x)}{p (x)} \\ \overset{(a)}{\leq} \sum_{x} p (x) (\frac{q (x)}{p (x)} - 1) \\ = \sum_{x} q (x) - \sum_{x} p (x) \\ = 1 - 1 \\ = 0 \end{aligned}

$\begin{align} -D(p||q)&=-\sum_x p(x)\ln \frac{p(x)}{q(x)}\\ &= \sum_x p(x)\ln \frac{q(x)}{p(x)}\\ &\stackrel{\text{(a)}}{\leq} \sum_x p(x)\left(\frac{q(x)}{p(x)}-1\right)\\ &=\sum_x q(x) - \sum_x p(x)\\ &= 1 - 1\\ &= 0 \end{align}$

$\ln$

- \sum_{x} p (x) \log_{2} p (x) \leq - \sum_{x} p (x) \log_{2} q (x)

$-\sum_x p(x) \log_2 p(x) \leq -\sum_x p(x)\log_2 q(x)$

\sum_{x} p (x) \log_{2} p (x) - \sum_{x} p (x) \log_{2} q (x) \geq 0 \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \geq 0

$\sum_x p(x) \log_2 p(x) - \sum_x p(x)\log_2 q(x)\geq 0 \\ \sum_x p(x)\log_2 \frac{p(x)}{q(x)}\geq 0$

Причина, по которой я не включаю это в качестве отдельного доказательства, состоит в том, что если бы вы попросили меня доказать неравенство Гиббса, мне пришлось бы исходить из неотрицательности дивергенции KL и делать то же самое доказательство сверху.

\sum_{i = 1}^{n} a_{i} \log_{2} \frac{a_{i}}{b_{i}} \geq (\sum_{i = 1}^{n} a_{i}) \log_{2} \frac{\sum_{i = 1}^{n} a_{i}}{\sum_{i = 1}^{n} b_{i}}

$\sum_{i=1}^{n} a_i \log_2 \frac{a_i}{b_i} \geq \left(\sum_{i=1}^{n} a_i\right)\log_2\frac{\sum_{i=1}^{n} a_i}{\sum_{i=1}^{n} b_i}$

$D_{KL}(p||q) \geq 0$

\begin{aligned} D (p | | q) & = \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \\ \overset{(b)}{\geq} (\sum_{x} p (x)) \log_{2} \frac{\sum_{x} p (x)}{\sum_{x} q (x)} \\ = 1 \cdot \log_{2} \frac{1}{1} \\ = 0 \end{aligned}

$\begin{align} D(p||q)&=\sum_x p(x)\log_2 \frac{p(x)}{q(x)}\\ &\stackrel{\text{(b)}}{\geq} \left(\sum_x p(x)\right)\log_2\frac{\sum_x p(x)}{\sum_x q(x)}\\ &=1 \cdot \log_2 \frac{1}{1}\\ &=0 \end{align}$

где мы использовали неравенство логарифмической суммы в (б).

Доказательство 3:

(Взято из книги «Элементы теории информации» Томаса М. Ковер и Джой А. Томас)

\begin{aligned} - D (п | | Q) & знак равно - \underset{Икс}{Σ} п (Икс) {журнал}_{2} \frac{п (Икс)}{Q (Икс)} \\ знак равно \underset{Икс}{Σ} п (Икс) {журнал}_{2} \frac{Q (Икс)}{п (Икс)} \\ \overset{(С)}{\leq} {журнал}_{2} \underset{Икс}{Σ} п (Икс) \frac{Q (Икс)}{п (Икс)} \\ знак равно {журнал}_{2} 1 \\ знак равно 0 \end{aligned}

$\begin{align} -D(p||q)&=-\sum_x p(x)\log_2 \frac{p(x)}{q(x)}\\ &= \sum_x p(x)\log_2 \frac{q(x)}{p(x)}\\ &\stackrel{\text{(c)}}{\leq} \log_2 \sum_x p(x)\frac{q(x)}{p(x)}\\ &=\log_2 1\\ &=0 \end{align}$

где в (с) мы использовали неравенство Дженсена и тот факт, что $\log$ вогнутая функция

— Андреас Г.
источник