Какова связь между показателем GINI и отношением логарифмического правдоподобия?


21

Я изучаю деревья классификации и регрессии, и одним из показателей местоположения разделения является оценка GINI.

Теперь я привык определять лучшее место разделения, когда логарифм отношения правдоподобия одних и тех же данных между двумя распределениями равен нулю, что означает, что вероятность членства одинаково вероятна.

Моя интуиция говорит, что должна быть какая-то связь, что у GINI должна быть хорошая основа в математической теории информации (Шеннон), но я недостаточно хорошо понимаю GINI, чтобы вывести отношения самостоятельно.

Вопросов:

  • Что является «первопринципным» выводом примесного показателя GINI в качестве меры для расщепления?
  • Как оценка GINI связана с логарифмическим отношением правдоподобия или другими теоретико-информационными принципами (энтропия Шеннона, pdf и перекрестная энтропия являются частью этих данных)?

Ссылки:

Энтропия Шеннона описывается как:

ЧАС(Икс)знак равноΣяп(Икся)журналбп(Икся)

Расширяя это до многомерного случая, мы получаем:

ЧАС(Икс,Y)знак равноΣИксΣYп(Икс,Y)журналбп(Икс,Y)

Условная энтропия определяется следующим образом:

ЧАС(Икс|Y)знак равноΣYп(Икс,Y)журналбп(Икс)п(Икс,Y)или,ЧАС(Икс|Y)знак равноЧАС(Икс,Y)-ЧАС(Y)

Журнал отношения правдоподобий используется для обнаружения резких изменений и выводится с их использованием. (У меня нет деривации передо мной.)

Джини Примеси:

  • Общая форма примеси GINI:язнак равноΣязнак равно1мея(1-ея)

Мысли:

  • Расщепление производится по мере загрязнения. Высокая "чистота", вероятно, такая же, как низкая энтропия. Подход, вероятно, связан с минимизацией энтропии.
  • Вполне вероятно, что предполагаемое базисное распределение является равномерным или, возможно, с помахиванием рукой, гауссовским. Они, вероятно, делают смесь распределений.
  • Интересно, можно ли здесь применить вывод из диаграммы Шухарта?
  • Примесь GINI выглядит как интеграл от функции плотности вероятности для биномиального распределения с 2 испытаниями и одним успехом. п(Иксзнак равноК)знак равно(21)п(1-п)

(Дополнительный)

  • Форма также согласуется с бета-биномиальным распределением, которое является сопряженным предшествованием для гипергеометрического распределения. Гипергеометрические тесты часто используются для определения того, какие образцы больше или меньше представлены в образце. Существует также связь с точным тестом Фишера, что бы это ни было (обратите внимание на себя, иди узнай больше об этом).

Редактировать: Я подозреваю, что есть форма GINI, которая очень хорошо работает с цифровой логикой и / или RB-деревьями. Я надеюсь изучить это в классном проекте этой осенью.


1
Это проблематично, если я отвечу на свой вопрос?
EngrStudent - Восстановить Монику

1
Нет, совсем нет. Если вы пришли к тому, что вы считаете разумным ответом, отойдите.
gung - Восстановить Монику

@EngrStudent. Хороший вопрос, но первая ссылка, которую вы предоставляете в разделе ссылок, относится к коэффициенту Джини, который не имеет ничего общего с мерой Джини, используемой в CART
Антуан

Что касается индекса Джини, я только что опубликовал простую интерпретацию: stats.stackexchange.com/questions/308885/…
Picaud Vincent

Ответы:


11

Я буду использовать те же обозначения, что и здесь: математика за деревьями классификации и регрессии

Gini Gain и Information Gain ( ) являются критериями разделения на основе примесей. Единственное отличие заключается в примесной функции :Яяграммя

  1. Джини:граммяNя(Е)знак равно1-ΣJзнак равно1спJ2
  2. Энтропия:ЧАС(Е)знак равно-ΣJзнак равно1спJжурналпJ

Они на самом деле являются частными значениями более общей меры энтропии (энтропии Цаллиса), параметризованной в :β

ЧАСβ(Е)знак равно1β-1(1-ΣJзнак равно1спJβ)

Джини получается с и с .βзнак равно2ЧАСβ1

Логарифмическая правдоподобие, также называемое -statistic, представляет собой линейное преобразование информационного усиления:грамм

грамм-статистикизнак равно2|Е|яграмм

В зависимости от сообщества (статистика / сбор данных) люди предпочитают один или другой показатель (связанный вопрос здесь ). Они могут быть в значительной степени эквивалентны в процессе индукции дерева решений. Логарифмическая правдоподобность может дать более высокие баллы сбалансированным разделам, хотя существует много классов [Техническое примечание: некоторые свойства критериев разделения. Брейман, 1996].

Gini Gain может быть лучше, потому что у него нет логарифмов, и вы можете найти закрытую форму для ее ожидаемого значения и дисперсии при предположении случайного разделения [Alin Dobra, Johannes Gehrke: Исправление смещения в построении дерева классификации. ICML 2001: 90-97]. Для получения информации это не так просто (если вам интересно, смотрите здесь ).


1

Хороший вопрос. К сожалению, у меня пока недостаточно репутации, чтобы высказываться или комментировать, поэтому отвечаю вместо этого!

Я не очень знаком с тестом отношения, но мне кажется, что это формализм, используемый для сравнения вероятности данных, возникающих из двух (или более) различных распределений, тогда как коэффициент Джини является суммарной статистикой одного распределения.

Полезный способ представить коэффициент Джини (IMO) - это площадь под кривой Лоренца (связана с cdf).

Может быть возможно приравнять энтропию Шеннона к Джини, используя определение энтропии, данное в ОП:

ЧАСзнак равноΣяп(Икся)журналбп(Икся)

и определение Джини:

граммзнак равно1-1μΣяп(Икся)(Sя-1+Sя) , где

Sязнак равноΣJзнак равно1яп(Икся)Икся (т.е. совокупное среднее значение до ).Икся

Это не выглядит легкой задачей, хотя!


Логарифмическое отношение правдоподобия оперируется теми же данными. Одно из распределений может иметь ту же общую форму, что и другое, но его параметры были согласованы с данными, когда выполнялся какой-то другой критерий. Например, у вас может быть одно распределение, параметры которого описывают исправное изменение производственного процесса (необязательно гауссовское), а другое, которое соответствует текущим значениям производственного процесса, и оперирующее обоими значениями текущего производственного процесса, сравнивает логарифмическое отношение правдоподобия с пороговым значением, указывающим возможность экскурсии. Это может быть актуальным для сравнения с идеалом.
EngrStudent - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.