Ограничение взаимной информации дает границы точечной взаимной информации

Предположим, у меня есть два набора $X$ и $Y$ и совместное распределение вероятностей по этим наборам $p(x,y)$ . Пусть $p(x)$ и $p(y)$ обозначают маргинальные распределения по $X$ и $Y$ соответственно.

Взаимная информация между $X$ и $Y$ определяется следующим образом:

I (X; Y) = \sum_{x, y} p (x, y) \cdot \log (\frac{p (x, y)}{p (x) p (y)})

$I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right)$

то есть это среднее значение поточечной взаимной информации pmi . $(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right)$

Предположим, что я знаю верхнюю и нижнюю границы для pmi : т.е. я знаю, что для всех выполняется следующее: $(x,y)$ $x,y$

- k \leq \log (\frac{p (x, y)}{p (x) p (y)}) \leq k

$-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k$

Какая верхняя граница это подразумевает для . Конечно, это подразумевает , но я бы хотел более жесткую оценку, если это возможно. Это кажется мне правдоподобным, потому что p определяет распределение вероятностей, а pmi не может принимать свое максимальное значение (или даже быть неотрицательным) для каждого значения и . $I(X; Y)$ $I(X; Y) \leq k$ $(x,y)$ $x$ $y$

entropy mutual-information information-theory

— Florian
источник

Когда совместные и маргинальные вероятности одинаковы, pmi ( , ) равно нулю (и, следовательно, неотрицательно, очевидно противоречит вашему последнему утверждению, но едва). Мне кажется, если я не ошибаюсь, что возмущение этой ситуации на малых подмножествах указывает на то, что оценки pmi почти ничего не говорят о самом .

x

$x$

y

$y$

X \times Y

$X \times Y$

I (X; Y)

$I(X;Y)$

— whuber

Фактически, если и независимы, то является константой независимо от маргинальных распределений. Таким образом, существует целый класс распределений для которых получает максимальное значение для каждых и .

X

$X$

Y

$Y$

p m i (x, y)

$\mathrm{pmi}(x,y)$

p (x, y)

$p(x,y)$

p m i (x, y)

$\mathrm{pmi}(x,y)$

x

$x$

y

$y$

— кардинал

Да, безусловно, верно, что pmi может быть равным для всех и , но это не исключает более жесткой границы. Например, нетрудно доказать, что . Это когда , и является нетривиальным усилением границы когда . Мне интересно, есть ли нетривиальные границы, которые имеют место в целом.

(x, y)

$(x,y)$

x

$x$

y

$y$

I (X; Y) \leq k (e^{k} - 1)

$I(X; Y) \leq k(e^k-1)$

\approx k^{2}

$\approx k^2$

k < 1

$k < 1$

k

$k$

k < 1

$k < 1$

— Флориан

Я сомневаюсь, что вы получите лучшую оценку, чем для . Если вы хотите выглядеть сложнее, попробуйте переформулировать ваш вопрос в терминах расхождения KL между p (x) p (y) и p (x, y). Неравенство Пинскера обеспечивает нижнюю границу МИ, которая может подтвердить мою догадку. Смотрите также Раздел 4 ajmaa.org/RGMIA/papers/v2n4/relog.pdf .

O (k^{2})

$O(k^2)$

k \to 0

$k \to 0$

— vqv

Ответы:

Мой вклад состоит из примера. Это иллюстрирует некоторые ограничения на то, как взаимная информация может быть ограничена, учитывая границы точечной взаимной информации.

Возьмем и для всех . Для любого пусть будет решением уравнения Затем мы помещаем точечную массу в точки в пространстве произведений таким образом, чтобы было $X = Y = \{1,\ldots, n\}$ $p(x) = 1/n$ $x \in X$ $m \in \{1,\ldots, n/2\}$ $k > 0$

m e^{k} + (n - m) e^{- k} = n .

$m e^{k} + (n - m) e^{-k} = n.$

e^{k} / n^{2}

$e^k / n^2$

n m

$nm$

{1, \dots, n}^{2}

$\{1,\ldots,n\}^2$

m

$m$ из этих точек в каждой строке и каждом столбце. (Это можно сделать несколькими способами. Начните, например, с первых точек в первой строке, а затем заполните оставшиеся строки, сдвинув точек на одну вправо с циклическим граничным условием для каждой строки). Поместим точечную массу в оставшиеся точки. Сумма этих точечных масс равна поэтому они дают меру вероятности. Все предельные вероятности точки: поэтому оба маргинальных распределения одинаковы.

m

$m$

m

$m$

e^{- k} / n^{2}

$e^{-k}/n^2$

n^{2} - n m

$n^2 - nm$

\frac{n m}{n^{2}} e^{k} + \frac{n^{2} - n m}{n^{2}} e^{- k} = \frac{m e^{k} + (n - m) e^{- k}}{n} = 1,

$\frac{nm}{n^2} e^{k} + \frac{n^2 - nm}{n^2} e^{-k} = \frac{me^k + (n-m)e^{-k}}{n} = 1,$

\frac{m}{n^{2}} e^{k} + \frac{m - n}{n^{2}} e^{- k} = \frac{1}{n},

$\frac{m}{n^2} e^{k} + \frac{m - n}{n^2} e^{-k} = \frac{1}{n},$

По построению ясно, что для всех и (после некоторых вычисления) с взаимная информация ведет себя как для и как для . $\mathrm{pmi}(x,y) \in \{-k,k\},$ $x,y \in \{1,\ldots,n\}$

I (X; Y) = k \frac{n m}{n^{2}} e^{k} - k \frac{n^{2} - n m}{n^{2}} e^{- k} = k (\frac{1 - e^{- k}}{e^{k} - e^{- k}} (e^{k} + e^{- k}) - e^{- k}),

$I(X;Y) = k \frac{nm}{n^2} e^{k} - k \frac{n^2 - nm}{n^2} e^{-k} = k\Big(\frac{1-e^{-k}}{e^k - e^{-k}} (e^k + e^{-k}) - e^{-k}\Big),$

k^{2} / 2

$k^2 / 2$

k \to 0

$k \to 0$

k

$k$

k \to \infty

$k \to \infty$

— NRH
источник

Я не уверен, что это то, что вы ищете, так как оно в основном алгебраическое и не использует свойства p как вероятностного распределения, но вот что вы можете попробовать.

$\frac{p(x,y)}{p(x)p(y)}\leq e^k$ $p(x,y)\leq p(x)p(y)\cdot e^k$ $p(x,y)$ $I(X;Y)$ $I(X;Y)\leq \sum_{x,y}p(x)p(y)\cdot e^k\cdot log(\frac{p(x)p(y)\cdot e^k}{p(x)p(y)}) = \sum_{x,y}p(x)p(y)\cdot e^k\cdot k$

Я не уверен, полезно это или нет.

РЕДАКТИРОВАТЬ: После дальнейшего рассмотрения я считаю, что это на самом деле менее полезно, чем исходная верхняя граница k. Я не буду удалять это, хотя в случае, если это может намекнуть в начальной точке.

— Майкл МакГоуэн
источник

\sum_{x, y} p (x) p (y) = 1

$\sum_{x,y}p(x)p(y)=1$

k \geq 0

$k \ge 0$

e^{k} \geq 1

$e^k \ge 1$

Да, когда я понял, что сделал свое редактирование.

— Майкл МакГоуэн