Связь между метрикой Фишера и относительной энтропией

20

Может ли кто-то доказать следующую связь между информационной метрикой Фишера и относительной энтропией (или дивергенцией KL) чисто математически строгим образом?

D (p (\cdot, a + d a) ∥ p (\cdot, a)) = \frac{1}{2} g_{i, j} d a^{i} d a^{j} + (O (‖ d a ‖^{3})

$D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3)$ где ,

и

- это соглашение Эйнштейна о суммировании.

a = (a^{1}, \dots, a^{n}), d a = (d a^{1}, \dots, d a^{n})

$a=(a^1,\dots, a^n), da=(da^1,\dots,da^n)$

g_{i, j} = \int \partial_{i} (\log p (x; a)) \partial_{j} (\log p (x; a)) p (x; a) d x

$g_{i,j}=\int \partial_i (\log p(x;a)) \partial_j(\log p(x;a))~ p(x;a)~dx$

g_{i, j} d a^{i} d a^{j} := \sum_{i, j} g_{i, j} d a^{i} d a^{j}

$g_{i,j} \, da^i \, da^j := \sum_{i,j}g_{i,j} \, da^i \, da^j$

Я нашел это в прекрасном блоге Джона Баеза, где Василий Анагностопулос говорит об этом в комментариях.

mathematical-statistics kullback-leibler fisher-information

— Кумара
источник

1

Уважаемый Кумара! Для пояснения, это поможет лучше объяснить ваши обозначения, в частности, значение

g_{i, j}

$g_{i,j}$ . Кроме того, я думаю, что в вашем выражении отсутствует постоянный коэффициент

1 / 2

$1/2$ перед первым членом правой части уравнения дисплея. Обратите внимание, что то, что сам Куллбек назвал дивергенцией (используя обозначение

J (\cdot, \cdot)

$J(\cdot,\cdot)$ ), является симметризованной версией того, что известно как дивергенция KL, т.

J (p, q) = D (p ‖ q) + D (q ‖ p)

$J(p,q) = D(p \| q) + D(q \| p)$ . Дивергенция KL была обозначена как

I (\cdot, \cdot)

$I(\cdot,\cdot)$ в работах Кульбака. Это также объясняет коэффициент

1 / 2

$1/2$ . Приветствия.

— кардинал

19

В 1946 году геофизик и байесовский статистик Гарольд Джеффрис представил то, что мы сегодня называем дивергенцией Кульбака-Лейблера, и обнаружил, что для двух распределений, которые «бесконечно близки» (будем надеяться, что ребята из Math SE этого не видят ;-) мы можем написать их расхождение Кульбака-Лейблера как квадратичная форма, коэффициенты которой задаются элементами информационной матрицы Фишера. Он интерпретировал эту квадратичную форму как элемент длины риманова многообразия, причем информация Фишера играет роль римановой метрики. Из этой геометризации статистической модели он вывел априор Джеффриса как меру, естественно индуцированную римановой метрикой, и эту меру можно интерпретировать как внутренне однородное распределение на многообразии, хотя, в общем, она не является конечной мерой.

Чтобы написать строгое доказательство, вам нужно определить все условия регулярности и позаботиться о порядке слагаемых ошибок в разложениях Тейлора. Вот краткий набросок аргумента.

Симметризованная дивергенция Кульбака-Лейблера между двумя плотностями и определяется как $f$ $g$

D [f, g] = \int (f (x) - g (x)) \log (\frac{f (x)}{g (x)}) d x .

$D[f,g] = \int (f(x) - g(x)) \log\left(\frac{f(x)}{g(x)} \right) dx \, .$

Если у нас есть семейство плотностей, параметризованное , то $\theta=(\theta_1,\dots,\theta_k)$

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] = \int (p (x, ∣ θ) - p (x ∣ θ + Δ θ)) \log (\frac{p (x ∣ θ)}{p (x ∣ θ + Δ θ)}) d x,

$D[p(\,\cdot\,\mid\theta), p(\,\cdot\,\mid\theta + \Delta\theta)] = \int ( p(x,\mid\theta) - p(x\mid\theta + \Delta\theta)) \log\left( \frac{p(x\mid\theta)}{p(x\mid\theta + \Delta\theta)}\right) \,dx \, ,$ в котором . Вводя обозначение некоторая простая алгебра дает Используя разложение Тейлора для натурального логарифма, мы имеем

Δ θ = (Δ θ_{1}, \dots, Δ θ_{k})

$\Delta\theta=(\Delta\theta_1,\dots,\Delta\theta_k)$

Δ p (x ∣ θ) = p (x ∣ θ) - p (x ∣ θ + Δ θ),

$\Delta p(x\mid\theta) = p(x\mid\theta) - p(x\mid\theta + \Delta\theta) \, ,$

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] = \int \frac{Δ p (x ∣ θ)}{p (x ∣ θ)} \log (1 + \frac{Δ p (x ∣ θ)}{p (x ∣ θ)}) p (x ∣ θ) d x .

$D[p(\;\cdot\,\mid\theta), p(\;\cdot\,\mid\theta + \Delta\theta)] = \int\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \log\left(1+\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right)p(x\mid\theta)\,dx \, .$

\log (1 + \frac{Δ p (x ∣ θ)}{p (x ∣ θ)}) \approx \frac{Δ p (x ∣ θ)}{p (x ∣ θ)},

$\log\left(1+\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right) \approx \frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \, ,$ и, следовательно, Но Следовательно, в котором

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] \approx \int {(\frac{Δ p (x ∣ θ)}{p (x ∣ θ)})}^{2} p (x ∣ θ) d x .

$D[p(\;\cdot\,\mid\theta), p(\;\cdot\,\mid\theta + \Delta\theta)] \approx \int\left(\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right)^2p(x\mid\theta)\,dx \, .$

\frac{Δ p (x ∣ θ)}{p (x ∣ θ)} \approx \frac{1}{p (x ∣ θ)} \sum_{i = 1}^{k} \frac{\partial p (x ∣ θ)}{\partial θ_{i}} Δ θ_{i} = \sum_{i = 1}^{k} \frac{\partial \log p (x ∣ θ)}{\partial θ_{i}} Δ θ_{i} .

$\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \approx \frac{1}{p(x\mid\theta)} \sum_{i=1}^k \frac{\partial p(x\mid\theta)}{\partial\theta_i} \, \Delta\theta_i = \sum_{i=1}^k \frac{\partial \log p(x\mid\theta)}{\partial\theta_i} \, \Delta\theta_i \, .$

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] \approx \sum_{i, j = 1}^{k} g_{i j} Δ θ_{i} Δ θ_{j},

$D[p(\,\cdot\,\mid\theta), p(\,\cdot\,\mid\theta + \Delta\theta)] \approx \sum_{i,j=1}^k g_{ij} \,\Delta\theta_i \, \Delta\theta_j \, ,$

g_{i j} = \int \frac{\partial \log p (x ∣ θ)}{\partial θ_{i}} \frac{\partial \log p (x ∣ θ)}{\partial θ_{j}} p (x ∣ θ) d x .

$g_{ij} = \int \frac{\partial \log p(x\mid\theta)}{\partial\theta_i} \frac{\partial \log p(x\mid\theta)}{\partial\theta_j} p(x\mid\theta) \,dx \, .$

Это оригинальная статья:

Джеффрис, Х. (1946). Инвариантная форма априорной вероятности в задачах оценки. Proc. Royal Soc. Лондон, серия А, 186, 453–461.

— Zen
источник

1

Большое спасибо за хорошее письмо. Было бы хорошо, если бы вы могли помочь этому также.

— Кумара

Да, вы правильно сказали. Я должен выйти из этой "ловушки абстракции".

— Кумара

@zen Вы используете расширение логарифма Тейлора под интегралом, почему это верно?

— Sus20200

1

Кажется крайне важным, чтобы вы начали с симметризованной дивергенции KL, в отличие от стандартной дивергенции KL. В статье Википедии не упоминается симметризованная версия, и поэтому она может быть неверной. en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence

— хирургический командир,

11

Доказательство для обычной (несимметричной) дивергенции KL

В ответе Дзэн используется симметризованная дивергенция KL, но результат верен и для обычной формы, поскольку он становится симметричным для бесконечно малых распределений.

Вот доказательство для дискретных распределений, параметризованных скалярным (потому что я ленивый), но может быть легко переписано для непрерывных распределений или вектора параметров: $\theta$

D (p_{θ}, p_{θ + d θ}) = \sum p_{θ} \log p_{θ} - \sum p_{θ} \log p_{θ + d θ} .

$\begin{equation} D(p_\theta,p_{\theta+d\theta})=\sum p_\theta \log p_\theta - \sum p_\theta \log p_{\theta+d\theta}\ . \end{equation}$ Тейлор, расширяющий последний член: Предполагая некоторые закономерности, я использовал два результата:

= \underset{= 0}{\underset{⏟}{\sum p_{θ} \log p_{θ} - \sum p_{θ} \log p_{θ}}} - d θ \underset{= 0 †}{\underset{⏟}{\sum p_{θ} \frac{d}{d θ} \log p_{θ}}} - \frac{1}{2} {d θ}^{2} \underset{= - \sum p_{θ} (\frac{d}{d θ} \log p_{θ})^{2} ‡}{\underset{⏟}{\sum p_{θ} \frac{d^{2}}{d θ^{2}} \log p_{θ}}} + O ({d θ}^{3}) = \frac{1}{2} {d θ}^{2} \underset{Fisher information}{\underset{⏟}{\sum p_{θ} (\frac{d}{d θ} \log p_{θ})^{2}}} + O ({d θ}^{3}) .

$\begin{equation} = \underbrace{\sum p_\theta \log p_\theta - \sum p_\theta \log p_\theta}_{=\ 0} - d\theta \underbrace{\sum p_\theta \frac{d}{d\theta}\log p_\theta}_{=\ 0 \ \dagger} - \frac{1}{2}{d\theta}^2 \underbrace{\sum p_\theta \frac{d^2}{d\theta^2}\log p_\theta}_{= -\sum p_\theta (\frac{d}{d\theta}\log p_\theta)^2 \ \ddagger} + \mathcal{O}({d\theta}^3) \\ = \frac{1}{2}{d\theta}^2 \underbrace{\sum p_\theta (\frac{d}{d\theta}\log p_\theta)^2}_{\textrm{Fisher information}} + \mathcal{O}({d\theta}^3). \end{equation}$

† : \sum p_{θ} \frac{d}{d θ} \log p_{θ} = \sum \frac{d}{d θ} p_{θ} = \frac{d}{d θ} \sum p_{θ} = 0,

$\begin{equation} \dagger: \sum p_\theta \frac{d}{d\theta}\log p_\theta = \sum \frac{d}{d\theta} p_\theta = \frac{d}{d\theta} \sum p_\theta =0, \end{equation}$

\begin{aligned} ‡ : \sum p_{θ} \frac{d^{2}}{d θ^{2}} \log p_{θ} & = \sum p_{θ} \frac{d}{d θ} (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ}) \\ = \sum p_{θ} [\frac{1}{p_{θ}} \frac{d^{2} p_{θ}}{d θ} - (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ})^{2}] \\ = \sum \frac{d^{2} p_{θ}}{d θ^{2}} - \sum p_{θ} (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ})^{2} \\ = \underset{= 0}{\underset{⏟}{\frac{d^{2}}{d θ^{2}} \sum p_{θ}}} - \sum p_{θ} (\frac{d}{d θ} \log p_{θ})^{2} . \end{aligned}

$\begin{align} \ddagger: \sum p_\theta \frac{d^2}{d\theta^2}\log p_\theta &= \sum p_\theta \frac{d}{d\theta}(\frac{1}{p_\theta}\frac{dp_\theta}{d\theta}) \\ &= \sum p_\theta \left[\frac{1}{p_\theta}\frac{d^2p_\theta}{d\theta}-(\frac{1}{p_\theta}\frac{dp_\theta}{d\theta})^2\right] \\ &= \sum \frac{d^2p_\theta}{d\theta^2} - \sum p_\theta (\frac{1}{p_\theta} \frac{dp_\theta}{d\theta})^2 \\ &= \underbrace{\frac{d^2}{d\theta^2} \sum p_\theta}_{=\ 0} - \sum {p_\theta} (\frac{d}{d\theta}\log p_\theta)^2. \end{align}$

— Абхранил Дас
источник

4

Вы можете найти аналогичное соотношение (для одномерного параметра) в уравнении (3) следующей статьи

D. Guo (2009), Относительная энтропия и функция оценки: новые соотношения информации и оценки через произвольное аддитивное возмущение , в Proc. IEEE Международный симпозиум по теории информации , 814–818. ( стабильная ссылка ).

Авторы ссылаются на

С. Кульбак, Теория информации и статистика . Нью-Йорк: Довер, 1968.

для доказательства этого результата.

— Примо Карнера
источник

1

1 / 2

$1/2$