Использование взаимной информации для оценки корреляции между непрерывной переменной и категориальной переменной

Что касается названия, идея состоит в том, чтобы использовать взаимную информацию, здесь и после MI, для оценки «корреляции» (определяемой как «насколько я знаю об A, когда я знаю B») между непрерывной переменной и категориальной переменной. Я расскажу вам свои мысли по этому вопросу через минуту, но прежде чем посоветовать вам прочитать этот другой вопрос / ответ на CrossValidated, так как он содержит некоторую полезную информацию.

Теперь, поскольку мы не можем интегрировать по категориальной переменной, нам нужно дискретизировать непрерывную. Это может быть сделано довольно легко в R, который является языком, на котором я провел большинство моих анализов. Я предпочел использовать cutфункцию, так как она также псевдоним значений, но доступны и другие варианты. Дело в том , , необходимо решить , априори количество «бункеров» (дискретные состояния) перед любой дискретизацией может быть сделано.

Основная проблема, однако, еще одна: MI колеблется от 0 до ∞, так как это нестандартная мера, единица измерения - бит. Это делает его очень трудным для использования в качестве коэффициента корреляции. Это может быть частично решено с использованием глобального коэффициента корреляции , здесь и после GCC, который является стандартизированной версией MI; GCC определяется следующим образом:

введите описание изображения здесь

Справка: формула взята из Взаимной информации как нелинейного инструмента для анализа глобализации фондового рынка. Авторы: Andreia Dionísio, Rui Menezes & Diana Mendes, 2010.

GCC колеблется от 0 до 1 и поэтому может быть легко использован для оценки корреляции между двумя переменными. Проблема решена, верно? Ну вроде. Потому что весь этот процесс сильно зависит от количества «корзин», которые мы решили использовать во время дискретизации. Вот результаты моих экспериментов:

введите описание изображения здесь

На оси Y у вас есть GCC, а на оси X - количество ячеек, которые я решил использовать для дискретизации. Две строки относятся к двум различным анализам, которые я провел для двух разных (хотя и очень похожих) наборов данных.

Мне кажется, что использование ИМ в целом и НКУ, в частности, остается спорным. Тем не менее, эта путаница может быть результатом ошибки с моей стороны. В любом случае, я хотел бы услышать ваше мнение по этому вопросу (а также, есть ли у вас альтернативные методы оценки корреляции между категориальной переменной и непрерывной?).

correlation information-theory mutual-information

— Эдгар Дерби
источник

Я не могу комментировать расчет взаимной информации для совместного распределения непрерывных и дискретных переменных, но могу предложить исключить эффект биннинга, если вы рассчитываете нормализованный вариант взаимной информации. Обычно один нормализуется суммой энтропий или совместной энтропией. Сумма энтропий немного лучше, потому что .

H (X_{i}, X_{j}) \leq H (X_{i}) + H (X_{j})

$H(X_i, X_j) \leq H(X_i) + H(X_j)$

— Джессика Коллинз

Кстати, вот код на случай, если кто-то захочет попробовать метод binning.

— zkurtz

Вы не оцениваете «корреляцию». Вы оцениваете взаимную информацию. Один не оценивает другой; они являются различными мерами более общей концепции ассоциации .

— zkurtz

Возможно, лучшим заголовком для этого поста будет «Как лучше всего создать непрерывную переменную для оценки ее взаимной информации с помощью категориальной переменной?»

— zkurtz

Вот интересный не биннинг подход. К сожалению, я не могу найти реализацию R.

— zkurtz

Существует более простой и лучший способ решения этой проблемы. Категориальная переменная фактически является просто набором индикаторных переменных. Основная идея теории измерений состоит в том, что такая переменная инвариантна к перемаркировке категорий, поэтому нет смысла использовать числовую маркировку категорий в какой-либо мере взаимосвязи между другой переменной (например, «корреляция»). , По этой причине и мера взаимосвязи между непрерывной переменной и категориальной переменной должна полностью основываться на переменных индикатора, полученных из последней.

Учитывая, что вы хотите измерить «корреляцию» между двумя переменными, имеет смысл взглянуть на корреляцию между непрерывной случайной величиной и индикаторной случайной величиной полученной из категориальной переменной. Обозначая мы имеем: $X$ $I$ $\phi \equiv \mathbb{P}(I=1)$

C o v (I, X) = E (I X) - E (I) E (X) = ϕ [E (X | I = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

который дает:

C o r r (I, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | I = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

Таким образом, корреляция между непрерывной случайной величиной и индикаторной случайной величиной является довольно простой функцией вероятности показателя и стандартизированного выигрыша в ожидаемом значении при условии $X$ $I$ $\phi$ $X$ $I=1$ . Обратите внимание, что эта корреляция не требует какой-либо дискретизации непрерывной случайной величины.

$C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C o r r (I_{k}, X) = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E (X | C = k) - E (X)}{S (X)} .

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

$\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

$(x_1, c_1), ..., (x_n, c_n)$

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

$X$

— Бен - Восстановить Монику
источник