Может ли кто-нибудь практически объяснить обоснованность примеси Джини против получения информации (на основе энтропии)?
Какой показатель лучше использовать в различных сценариях при использовании деревьев решений?
Может ли кто-нибудь практически объяснить обоснованность примеси Джини против получения информации (на основе энтропии)?
Какой показатель лучше использовать в различных сценариях при использовании деревьев решений?
Ответы:
Примесь Джини и энтропия информационного усиления практически одинаковы. И люди используют значения взаимозаменяемо. Ниже приведены формулы обоих:
Если бы у меня был выбор, я бы использовал примесь Джини, поскольку она не требует от меня вычисления логарифмических функций, которые требуют значительных вычислительных ресурсов. Закрытая форма его решения также может быть найдена.
Какой показатель лучше использовать в различных сценариях при использовании деревьев решений?
Примесь Джини по причинам, указанным выше.
Таким образом, они очень похожи в аналитике CART.
Как правило, ваша производительность не изменится, используете ли вы примеси Джини или энтропию.
Лаура Елена Райляну и Килиан Стоффель сравнили оба в « Теоретическом сравнении между индексом Джини и критериями получения информации ». Наиболее важными замечаниями были:
Мне однажды сказали, что обе метрики существуют, потому что они появились в разных научных дисциплинах.
Для случая переменной с двумя значениями, появляющейся с дробями f и (1-f),
джини и энтропия определяются как:
gini = 2 * f (1-f)
entropy = f * ln (1 / f) + (1-f) * ln (1 / (1-f))
Эти меры очень похожи, если их масштабировать до 1,0 (график 2 * Джини и энтропии / ln (2)):
Энтропия занимает немного больше времени вычислений, чем индекс Gini, из-за вычисления журнала, возможно, именно поэтому индекс Gini стал опцией по умолчанию для многих алгоритмов ML. Но из Tan et. Аль книга Введение в интеллектуальный анализ данных
«Мера загрязненности вполне согласуется друг с другом ... Действительно, стратегия, используемая для обрезки дерева, оказывает большее влияние на конечное дерево, чем выбор меры примеси».
Таким образом, похоже, что выбор меры примеси мало влияет на производительность алгоритмов с одним деревом решений.
Также. «Метод Джини работает, только когда целевая переменная является двоичной переменной». - Обучение прогнозной аналитике с помощью Python.
Я занимался оптимизацией бинарной классификации на прошлой неделе, и в каждом случае энтропия значительно превосходит джини. Это может быть связано с конкретным набором данных, но может показаться, что пробовать оба варианта, в то время как настройка гиперпараметров - это рациональный выбор, а не делать предположения о модели заранее.
Вы никогда не знаете, как будут реагировать данные, пока не запустите статистику.
Согласно принципу экономии, Джини превосходит энтропию с точки зрения простоты вычислений (лог, очевидно, включает в себя больше вычислений, чем простое умножение на уровне процессора / компьютера).
Но энтропия определенно имеет преимущество в некоторых случаях данных, связанных с большим дисбалансом.
Поскольку энтропия использует логарифм вероятностей и умножение на вероятности события, то, что происходит в фоновом режиме, это значение более низких вероятностей, которые увеличиваются.
Если распределение вероятностей ваших данных является экспоненциальным или Лапласа (как в случае глубокого обучения, где нам нужно распределение вероятностей в острой точке), энтропия превосходит Джини.
Например, если у вас есть 2 события: одна вероятность 0,01, другая вероятность 0,99.
В Gini prob sq будет .01 ^ 2 + .99 ^ 2, .0001 + .9801 означает, что более низкая вероятность не играет никакой роли, так как все определяется вероятностью большинства.
Теперь в случае энтропии .01 * log (.01) +. 99 * log (.99) = .01 * (- 2) + .99 * (-. 00436) = -.02-.00432 теперь в этом случае отчетливо видны более низкие вероятности с учетом лучшего веса.