Когда я должен использовать Gini Impurity, а не Gain?

66

Может ли кто-нибудь практически объяснить обоснованность примеси Джини против получения информации (на основе энтропии)?

Какой показатель лучше использовать в различных сценариях при использовании деревьев решений?

machine-learning decision-trees

— Криш Махаджан
источник

5

@ Anony-Mousse Я думаю, это было очевидно до твоего комментария. Вопрос не в том, имеют ли оба преимущества, а в том, в каких сценариях один лучше другого.

— Мартин Тома

Я предложил «Информационный прирост» вместо «Энтропии», поскольку он довольно близок (ИМХО), как отмечено в соответствующих ссылках. Затем в другой форме был задан вопрос: когда использовать примеси Джини, а когда использовать получение информации?

— Лоран Дюваль

1

Я разместил здесь простую интерпретацию примеси Джини, которая может оказаться полезной.

— Пикауд Винсент

47

Примесь Джини и энтропия информационного усиления практически одинаковы. И люди используют значения взаимозаменяемо. Ниже приведены формулы обоих:

$\textit{Gini}: \mathit{Gini}(E) = 1 - \sum_{j=1}^{c}p_j^2$
$\textit{Entropy}: H(E) = -\sum_{j=1}^{c}p_j\log p_j$

Если бы у меня был выбор, я бы использовал примесь Джини, поскольку она не требует от меня вычисления логарифмических функций, которые требуют значительных вычислительных ресурсов. Закрытая форма его решения также может быть найдена.

Какой показатель лучше использовать в различных сценариях при использовании деревьев решений?

Примесь Джини по причинам, указанным выше.

Таким образом, они очень похожи в аналитике CART.

Полезная ссылка для вычислительного сравнения двух методов

— Dawny33
источник

1

Так часто можно увидеть формулу энтропии, в то время как то, что действительно используется в дереве решений, выглядит как условная энтропия. Я думаю, что это важное различие или что-то упущено?

— user1700890

@ user1700890 Алгоритм ID3 использует информацию. получить энтропию. Мне нужно прочитать об условной энтропии. Вероятно, улучшение по сравнению с ID3 :)

— Dawny33

1

Я думаю, что ваше определение нечистоты Джини может быть неправильным: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity

— Martin Thoma

22

Как правило, ваша производительность не изменится, используете ли вы примеси Джини или энтропию.

Лаура Елена Райляну и Килиан Стоффель сравнили оба в « Теоретическом сравнении между индексом Джини и критериями получения информации ». Наиболее важными замечаниями были:

Это имеет значение только в 2% случаев, используете ли вы примесь Джини или энтропию.
Энтропия может быть немного медленнее для вычисления (потому что она использует логарифм).

Мне однажды сказали, что обе метрики существуют, потому что они появились в разных научных дисциплинах.

— Арчи
источник

16

Для случая переменной с двумя значениями, появляющейся с дробями f и (1-f),
джини и энтропия определяются как:
gini = 2 * f (1-f)
entropy = f * ln (1 / f) + (1-f) * ln (1 / (1-f))
Эти меры очень похожи, если их масштабировать до 1,0 (график 2 * Джини и энтропии / ln (2)):

— DanLvii Dewey
источник

14

Джини предназначен для непрерывных атрибутов, а энтропия - для атрибутов, которые встречаются в классах.

Джини минимизирует ошибочную классификацию.
Энтропия предназначена для исследовательского анализа.

Энтропия немного медленнее вычисляется

— NIMISHAN
источник

7

\begin{aligned} \forall 0 < U < 1, журнал (1 - U) & знак равно - U - U^{2} / 2 - U^{3} / 3 + \dots \\ \forall 0 < п < 1, журнал (п) & знак равно п - 1 - (1 - п)^{2} / 2 - (1 - п)^{3} / 3 + \dots \end{aligned}

$\begin{split} \forall \; 0 < u < 1,\; \log (1-u) &= -u - u^2/2 - u^3/3 \, + \, \cdots\\ \forall \; 0 < p < 1,\; \log (p) &= p-1 - (1-p)^2/2 - (1-p)^3/3 \, + \, \cdots\\ \end{split}$

\forall 0 < п < 1, - п журнал (п) знак равно п (1 - п) + п (1 - п)^{2} / 2 + п (1 - п)^{3} / 3 + \dots

$\forall \; 0 < p < 1,\; -p \log (p) = p(1-p) + p(1-p)^2/2 + p(1-p)^3/3 \, + \, \cdots$

Нормализованные критерии Джини и Энтропии

В конце, как объясняет @NIMISHAN, Джини больше подходит для минимизации ошибочной классификации, поскольку она симметрична 0,5, в то время как энтропия будет больше наказывать малые вероятности.

— ClementWalter
источник

3

Энтропия занимает немного больше времени вычислений, чем индекс Gini, из-за вычисления журнала, возможно, именно поэтому индекс Gini стал опцией по умолчанию для многих алгоритмов ML. Но из Tan et. Аль книга Введение в интеллектуальный анализ данных

«Мера загрязненности вполне согласуется друг с другом ... Действительно, стратегия, используемая для обрезки дерева, оказывает большее влияние на конечное дерево, чем выбор меры примеси».

Таким образом, похоже, что выбор меры примеси мало влияет на производительность алгоритмов с одним деревом решений.

Также. «Метод Джини работает, только когда целевая переменная является двоичной переменной». - Обучение прогнозной аналитике с помощью Python.

— Ракенд Дубба
источник

3

Я занимался оптимизацией бинарной классификации на прошлой неделе, и в каждом случае энтропия значительно превосходит джини. Это может быть связано с конкретным набором данных, но может показаться, что пробовать оба варианта, в то время как настройка гиперпараметров - это рациональный выбор, а не делать предположения о модели заранее.

Вы никогда не знаете, как будут реагировать данные, пока не запустите статистику.

— H Froedge
источник

0

Согласно принципу экономии, Джини превосходит энтропию с точки зрения простоты вычислений (лог, очевидно, включает в себя больше вычислений, чем простое умножение на уровне процессора / компьютера).

Но энтропия определенно имеет преимущество в некоторых случаях данных, связанных с большим дисбалансом.

Поскольку энтропия использует логарифм вероятностей и умножение на вероятности события, то, что происходит в фоновом режиме, это значение более низких вероятностей, которые увеличиваются.

Если распределение вероятностей ваших данных является экспоненциальным или Лапласа (как в случае глубокого обучения, где нам нужно распределение вероятностей в острой точке), энтропия превосходит Джини.

Например, если у вас есть 2 события: одна вероятность 0,01, другая вероятность 0,99.

В Gini prob sq будет .01 ^ 2 + .99 ^ 2, .0001 + .9801 означает, что более низкая вероятность не играет никакой роли, так как все определяется вероятностью большинства.

Теперь в случае энтропии .01 * log (.01) +. 99 * log (.99) = .01 * (- 2) + .99 * (-. 00436) = -.02-.00432 теперь в этом случае отчетливо видны более низкие вероятности с учетом лучшего веса.

— Гаурав Догра
источник