В 1946 году геофизик и байесовский статистик Гарольд Джеффрис представил то, что мы сегодня называем дивергенцией Кульбака-Лейблера, и обнаружил, что для двух распределений, которые «бесконечно близки» (будем надеяться, что ребята из Math SE этого не видят ;-) мы можем написать их расхождение Кульбака-Лейблера как квадратичная форма, коэффициенты которой задаются элементами информационной матрицы Фишера. Он интерпретировал эту квадратичную форму как элемент длины риманова многообразия, причем информация Фишера играет роль римановой метрики. Из этой геометризации статистической модели он вывел априор Джеффриса как меру, естественно индуцированную римановой метрикой, и эту меру можно интерпретировать как внутренне однородное распределение на многообразии, хотя, в общем, она не является конечной мерой.
Чтобы написать строгое доказательство, вам нужно определить все условия регулярности и позаботиться о порядке слагаемых ошибок в разложениях Тейлора. Вот краткий набросок аргумента.
Симметризованная дивергенция Кульбака-Лейблера между двумя плотностями и определяется какfg
D[f,g]=∫(f(x)−g(x))log(f(x)g(x))dx.
Если у нас есть семейство плотностей, параметризованное , тоθ=(θ1,…,θk)
D[p(⋅∣θ),p(⋅∣θ+Δθ)]=∫(p(x,∣θ)−p(x∣θ+Δθ))log(p(x∣θ)p(x∣θ+Δθ))dx,
в котором . Вводя обозначение
некоторая простая алгебра дает
Используя разложение Тейлора для натурального логарифма, мы имеем
Δθ=(Δθ1,…,Δθk)Δp(x∣θ)=p(x∣θ)−p(x∣θ+Δθ),
D[p(⋅∣θ),p(⋅∣θ+Δθ)]=∫Δp(x∣θ)p(x∣θ)log(1+Δp(x∣θ)p(x∣θ))p(x∣θ)dx.
log(1+Δp(x∣θ)p(x∣θ))≈Δp(x∣θ)p(x∣θ),
и, следовательно,
Но
Следовательно,
в котором
D[p(⋅∣θ),p(⋅∣θ+Δθ)]≈∫(Δp(x∣θ)p(x∣θ))2p(x∣θ)dx.
Δp(x∣θ)p(x∣θ)≈1p(x∣θ)∑i=1k∂p(x∣θ)∂θiΔθi=∑i=1k∂logp(x∣θ)∂θiΔθi.
D[p(⋅∣θ),p(⋅∣θ+Δθ)]≈∑i,j=1kgijΔθiΔθj,
gij=∫∂logp(x∣θ)∂θi∂logp(x∣θ)∂θjp(x∣θ)dx.
Это оригинальная статья:
Джеффрис, Х. (1946). Инвариантная форма априорной вероятности в задачах оценки. Proc. Royal Soc. Лондон, серия А, 186, 453–461.