Какова связь между показателем GINI и отношением логарифмического правдоподобия?

Я изучаю деревья классификации и регрессии, и одним из показателей местоположения разделения является оценка GINI.

Теперь я привык определять лучшее место разделения, когда логарифм отношения правдоподобия одних и тех же данных между двумя распределениями равен нулю, что означает, что вероятность членства одинаково вероятна.

Моя интуиция говорит, что должна быть какая-то связь, что у GINI должна быть хорошая основа в математической теории информации (Шеннон), но я недостаточно хорошо понимаю GINI, чтобы вывести отношения самостоятельно.

Вопросов:

Что является «первопринципным» выводом примесного показателя GINI в качестве меры для расщепления?
Как оценка GINI связана с логарифмическим отношением правдоподобия или другими теоретико-информационными принципами (энтропия Шеннона, pdf и перекрестная энтропия являются частью этих данных)?

Ссылки:

Энтропия Шеннона описывается как:

ЧАС (Икс) знак равно Σ_{я} п ({Икс}_{я}) {журнал}_{б} п ({Икс}_{я})

$H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right)$

Расширяя это до многомерного случая, мы получаем:

ЧАС (Икс, Y) знак равно Σ_{Икс} Σ_{Y} п (Икс, Y) {журнал}_{б} п (Икс, Y)

$H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right)$

Условная энтропия определяется следующим образом:

\begin{aligned} ЧАС (Икс | Y) & знак равно Σ_{Y} п (Икс, Y) {журнал}_{б} \frac{п (Икс)}{п (Икс, Y)} \\ или, \\ ЧАС (Икс | Y) & знак равно ЧАС (Икс, Y) - ЧАС (Y) \end{aligned}

$\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} \newline &\text{or,} \newline H \left(X|Y \right) &= H \left(X,Y \right) - H \left(Y \right) \end{align}$

Журнал отношения правдоподобий используется для обнаружения резких изменений и выводится с их использованием. (У меня нет деривации передо мной.)

Джини Примеси:

Общая форма примеси GINI: $I = \sum_{i=1}^m f_{i} \cdot \left( 1-f_{i}\right)$

Мысли:

Расщепление производится по мере загрязнения. Высокая "чистота", вероятно, такая же, как низкая энтропия. Подход, вероятно, связан с минимизацией энтропии.
Вполне вероятно, что предполагаемое базисное распределение является равномерным или, возможно, с помахиванием рукой, гауссовским. Они, вероятно, делают смесь распределений.
Интересно, можно ли здесь применить вывод из диаграммы Шухарта?
Примесь GINI выглядит как интеграл от функции плотности вероятности для биномиального распределения с 2 испытаниями и одним успехом. $P(x=k)= \begin{pmatrix} 2\\ 1\end{pmatrix} p \left( 1-p \right)$

(Дополнительный)

Форма также согласуется с бета-биномиальным распределением, которое является сопряженным предшествованием для гипергеометрического распределения. Гипергеометрические тесты часто используются для определения того, какие образцы больше или меньше представлены в образце. Существует также связь с точным тестом Фишера, что бы это ни было (обратите внимание на себя, иди узнай больше об этом).

Редактировать: Я подозреваю, что есть форма GINI, которая очень хорошо работает с цифровой логикой и / или RB-деревьями. Я надеюсь изучить это в классном проекте этой осенью.

— EngrStudent - Восстановить Монику
источник

Это проблематично, если я отвечу на свой вопрос?

— EngrStudent - Восстановить Монику

Нет, совсем нет. Если вы пришли к тому, что вы считаете разумным ответом, отойдите.

— gung - Восстановить Монику

@EngrStudent. Хороший вопрос, но первая ссылка, которую вы предоставляете в разделе ссылок, относится к коэффициенту Джини, который не имеет ничего общего с мерой Джини, используемой в CART

— Антуан

Что касается индекса Джини, я только что опубликовал простую интерпретацию: stats.stackexchange.com/questions/308885/…

— Picaud Vincent

Ответы:

Я буду использовать те же обозначения, что и здесь: математика за деревьями классификации и регрессии

Gini Gain и Information Gain ( ) являются критериями разделения на основе примесей. Единственное отличие заключается в примесной функции : $IG$ $I$

$\textit{Gini}: \mathit{Gini}(E) = 1 - \sum_{j=1}^{c}p_j^2$
$\textit{Entropy}: H(E) = -\sum_{j=1}^{c}p_j\log p_j$

Они на самом деле являются частными значениями более общей меры энтропии (энтропии Цаллиса), параметризованной в : $\beta$

{ЧАС}_{β} (Е) знак равно \frac{1}{β - 1} (1 - Σ_{J знак равно 1}^{с} п_{J}^{β})

$H_\beta (E) = \frac{1}{\beta-1} \left( 1 - \sum_{j=1}^{c}p_j^\beta \right)$

$\textit{Gini}$ получается с и с . $\beta = 2$ $H$ $\beta \rightarrow 1$

Логарифмическая правдоподобие, также называемое -statistic, представляет собой линейное преобразование информационного усиления: $G$

грамм -статистики знак равно 2 \cdot | Е | \cdot я грамм

$G\text{-statistic} = 2 \cdot |E| \cdot IG$

В зависимости от сообщества (статистика / сбор данных) люди предпочитают один или другой показатель (связанный вопрос здесь ). Они могут быть в значительной степени эквивалентны в процессе индукции дерева решений. Логарифмическая правдоподобность может дать более высокие баллы сбалансированным разделам, хотя существует много классов [Техническое примечание: некоторые свойства критериев разделения. Брейман, 1996].

Gini Gain может быть лучше, потому что у него нет логарифмов, и вы можете найти закрытую форму для ее ожидаемого значения и дисперсии при предположении случайного разделения [Alin Dobra, Johannes Gehrke: Исправление смещения в построении дерева классификации. ICML 2001: 90-97]. Для получения информации это не так просто (если вам интересно, смотрите здесь ).

— Симона
источник

Хороший вопрос. К сожалению, у меня пока недостаточно репутации, чтобы высказываться или комментировать, поэтому отвечаю вместо этого!

Я не очень знаком с тестом отношения, но мне кажется, что это формализм, используемый для сравнения вероятности данных, возникающих из двух (или более) различных распределений, тогда как коэффициент Джини является суммарной статистикой одного распределения.

Полезный способ представить коэффициент Джини (IMO) - это площадь под кривой Лоренца (связана с cdf).

Может быть возможно приравнять энтропию Шеннона к Джини, используя определение энтропии, данное в ОП:

$H = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right)$

и определение Джини:

$G = 1 - \frac{1}{\mu}\Sigma_i P(x_i)(S_{i-1} + S_i)$ , где

$S_i = \Sigma_{j=1}^i P(x_i)x_i$ (т.е. совокупное среднее значение до ). $x_i$

Это не выглядит легкой задачей, хотя!

— Габриель
источник

Логарифмическое отношение правдоподобия оперируется теми же данными. Одно из распределений может иметь ту же общую форму, что и другое, но его параметры были согласованы с данными, когда выполнялся какой-то другой критерий. Например, у вас может быть одно распределение, параметры которого описывают исправное изменение производственного процесса (необязательно гауссовское), а другое, которое соответствует текущим значениям производственного процесса, и оперирующее обоими значениями текущего производственного процесса, сравнивает логарифмическое отношение правдоподобия с пороговым значением, указывающим возможность экскурсии. Это может быть актуальным для сравнения с идеалом.

— EngrStudent - Восстановить Монику