Какая функция стоимости лучше для случайного лесного дерева: индекс Джини или энтропия?


12

Какая функция стоимости лучше для случайного лесного дерева: индекс Джини или энтропия?

Я пытаюсь реализовать случайный лес в Clojure.

Ответы:


9

Как я обнаружил во введении к интеллектуальному анализу данных Tan et. аль:

Исследования показали, что выбор меры примеси мало влияет на производительность алгоритмов индукции дерева решений. Это потому, что многие примесные меры вполне соответствуют друг другу [...]. Действительно, стратегия, используемая для обрезки дерева, оказывает большее влияние на конечное дерево, чем выбор меры загрязненности.

Поэтому вы можете использовать индекс Джини, например CART, или энтропию, например C4.5.

Я бы использовал Entropy, а точнее коэффициент усиления C4.5, потому что вы можете легко следовать хорошо написанной книге Quinlan: C4.5 Программы для машинного обучения.


3
Небольшое замечание - энтропия использует журналы, что может быть проблемой вычислительного времени.

8
Это замечание касается чистых деревьев решений, а не случайных лесов. Обычно вы не обрезаете дерево в случайном лесу, потому что не пытаетесь построить лучшее дерево. Так что говорить о том, что важнее: обрезка или мера нечистоты, вводит в заблуждение. Цель состоит в том, чтобы найти лучшее дерево для использования со случайным лесом.
Чан-Хо Су
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.