Что касается названия, идея состоит в том, чтобы использовать взаимную информацию, здесь и после MI, для оценки «корреляции» (определяемой как «насколько я знаю об A, когда я знаю B») между непрерывной переменной и категориальной переменной. Я расскажу вам свои мысли по этому вопросу через минуту, но прежде чем посоветовать вам прочитать этот другой вопрос / ответ на CrossValidated, так как он содержит некоторую полезную информацию.
Теперь, поскольку мы не можем интегрировать по категориальной переменной, нам нужно дискретизировать непрерывную. Это может быть сделано довольно легко в R, который является языком, на котором я провел большинство моих анализов. Я предпочел использовать cut
функцию, так как она также псевдоним значений, но доступны и другие варианты. Дело в том , , необходимо решить , априори количество «бункеров» (дискретные состояния) перед любой дискретизацией может быть сделано.
Основная проблема, однако, еще одна: MI колеблется от 0 до ∞, так как это нестандартная мера, единица измерения - бит. Это делает его очень трудным для использования в качестве коэффициента корреляции. Это может быть частично решено с использованием глобального коэффициента корреляции , здесь и после GCC, который является стандартизированной версией MI; GCC определяется следующим образом:
Справка: формула взята из Взаимной информации как нелинейного инструмента для анализа глобализации фондового рынка. Авторы: Andreia Dionísio, Rui Menezes & Diana Mendes, 2010.
GCC колеблется от 0 до 1 и поэтому может быть легко использован для оценки корреляции между двумя переменными. Проблема решена, верно? Ну вроде. Потому что весь этот процесс сильно зависит от количества «корзин», которые мы решили использовать во время дискретизации. Вот результаты моих экспериментов:
На оси Y у вас есть GCC, а на оси X - количество ячеек, которые я решил использовать для дискретизации. Две строки относятся к двум различным анализам, которые я провел для двух разных (хотя и очень похожих) наборов данных.
Мне кажется, что использование ИМ в целом и НКУ, в частности, остается спорным. Тем не менее, эта путаница может быть результатом ошибки с моей стороны. В любом случае, я хотел бы услышать ваше мнение по этому вопросу (а также, есть ли у вас альтернативные методы оценки корреляции между категориальной переменной и непрерывной?).