Взаимная информация против корреляции

51

Почему и когда мы должны использовать Взаимную информацию для статистических измерений корреляции, таких как «Пирсон», «Спирман» или «Тау Кендалла»?

correlation mathematical-statistics mutual-information

— SaZa
источник

77

Давайте рассмотрим одну фундаментальную концепцию (линейной) корреляции, ковариации (которая является коэффициентом корреляции Пирсона "нестандартизированный"). Для двух дискретных случайных величин и с функциями вероятности масс , и совместной функции pmf имеем $X$ $Y$ $p(x)$ $p(y)$ $p(x,y)$

Cov (X, Y) = E (X Y) - E (X) E (Y) = \sum_{x, y} p (x, y) x y - (\sum_{x} p (x) x) \cdot (\sum_{y} p (y) y)

$\operatorname{Cov}(X,Y) = E(XY) - E(X)E(Y) = \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right)$

\Rightarrow Cov (X, Y) = \sum_{x, y} [p (x, y) - p (x) p (y)] x y

$\Rightarrow \operatorname{Cov}(X,Y) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy$

Взаимная информация между ними определяется как

I (X, Y) = E (\ln \frac{p (x, y)}{p (x) p (y)}) = \sum_{x, y} p (x, y) [\ln p (x, y) - \ln p (x) p (y)]

$I(X,Y) = E\left (\ln \frac{p(x,y)}{p(x)p(y)}\right)=\sum_{x,y}p(x,y)\left[\ln p(x,y)-\ln p(x)p(y)\right]$

$\operatorname{Cov}(X,Y)$ $I(X,Y)$

$I(X,Y)$ $\operatorname{Cov}(X,Y)$

Таким образом, они не антагонистичны - они дополняют друг друга, описывая различные аспекты ассоциации между двумя случайными переменными. Можно было бы прокомментировать, что Взаимная информация «не касается», является ли связь линейной или нет, в то время как ковариация может быть нулевой, а переменные все еще могут быть стохастически зависимыми. С другой стороны, ковариация может быть рассчитана непосредственно из выборки данных без необходимости фактически знать соответствующие распределения вероятностей (поскольку это выражение включает моменты распределения), в то время как для взаимной информации требуется знание распределений, оценка которых, если неизвестно, это гораздо более деликатная и неопределенная работа по сравнению с оценкой ковариации.

— Алекос Пападопулос
источник

@ Алекос Пападопулос; Спасибо за исчерпывающий ответ.

— SaZa

1

Я задавал себе тот же вопрос, но не до конца понял ответ. @ Алекос Пападопулос: Я понял, что измеренная зависимость не то же самое, хорошо. Итак, для каких отношений между X и Y следует отдавать предпочтение взаимной информации I (X, Y), а не Cov (X, Y)? Недавно у меня был странный пример, когда Y почти линейно зависел от X (это была почти прямая линия на диаграмме рассеяния), и Corr (X, Y) был равен 0,87, тогда как I (X, Y) был равен 0,45 . Итак, есть ли в некоторых случаях, когда один показатель следует выбирать по сравнению с другим? Спасибо за помощь!

— Gandhi91

X

$X$

H (X)

$H(X)$

Это отличный и очень четкий ответ. Мне было интересно, есть ли у вас легкодоступный пример, где cov равно 0, а pmi нет.

— Тханг

@thang. На самом деле, нет. Нужно быть в состоянии найти пример, где ковариация равна нулю и в то же время иметь доступное совместное распределение, чтобы рассчитать взаимную информацию (и совместное распределение не было бы продуктом маргиналов, потому что мы хотим, чтобы переменные не были независимый).

— Алекос Пападопулос

7

Взаимная информация - это расстояние между двумя вероятностными распределениями. Корреляция - это линейное расстояние между двумя случайными величинами.

Вы можете иметь взаимную информацию между любыми двумя вероятностями, определенными для набора символов, в то время как вы не можете иметь корреляцию между символами, которые не могут быть естественно отображены в пространство R ^ N.

С другой стороны, взаимная информация не делает предположений о некоторых свойствах переменных ... Если вы работаете с гладкими переменными, корреляция может рассказать вам больше о них; например, если их отношения монотонны.

Если у вас есть некоторая предварительная информация, то вы можете переключиться с одного на другой; в медицинских записях вы можете сопоставить символы «имеет генотип A» как 1 и «не имеет генотип A» в значениях 0 и 1 и посмотреть, имеет ли это какую-либо форму корреляции с той или иной болезнью. Точно так же вы можете взять переменную, которая является непрерывной (например, зарплата), преобразовать ее в отдельные категории и вычислить взаимную информацию между этими категориями и другим набором символов.

— Пау Вилимелис Асейтуно
источник

Корреляция не является линейной функцией. Следует ли сказать, что корреляция является мерой линейных отношений между случайными переменными?

— Мэтью Ганн

1

Я думаю, что: «Вы можете иметь взаимную информацию между любыми двумя вероятностями, определенными для набора символов, в то время как вы не можете иметь корреляцию между символами, которые не могут быть естественно отображены в пространство R ^ N», вероятно, является ключом. Корр не имеет смысла, если у вас нет полной случайной величины; тем не менее, pmi имеет смысл даже только с pdf и sigma (пробел). Вот почему во многих приложениях, где RV не имеют смысла (например, NLP), используется pmi.

— Тханг

6

Вот пример.

На этих двух графиках коэффициент корреляции равен нулю. Но мы можем получить высокую общую взаимную информацию, даже когда корреляция равна нулю.

Во-первых, я вижу, что если у меня высокое или низкое значение X, тогда я, вероятно, получу высокое значение Y. Но если значение X умеренное, тогда у меня низкое значение Y. Первый график содержит информацию о взаимной информации, которой делятся X и Y. Во втором сюжете X ничего не говорит мне о Y.

— dennislendrem
источник

4

Хотя оба они являются мерой взаимосвязи между признаками, MI является более общим, чем коэффициент корреляции (CE), так как CE способен учитывать только линейные отношения, но MI также может обрабатывать нелинейные отношения.

— Hossein9
источник

Это не правда. Коэффициент корреляции Пирсона предполагает нормальность и линейность двух случайных величин, а альтернативы, как у непараметрического Спирмена, - нет. Там только монотонность между двумя rvs предполагается.

— мяу