Использует ли случайный лес Бреймана прирост информации или индекс Джини?

Я хотел бы знать, использует ли случайный лес Бреймана (случайный лес в пакете R randomForest) в качестве критерия расщепления (критерий для выбора атрибута) получение информации или индекс Джини? Я пытался выяснить это на http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm и в документации для пакета randomForest в R. Но единственное, что я обнаружил, это то, что индекс Джини можно использовать для вычисления переменной важности.

r random-forest entropy gini

— кто-то
источник

Мне также интересно, являются ли деревья случайного леса в пакете randomForest двоичными или нет.

— кто-то

Пакет randomForest в R от A. Liaw - это порт исходного кода, представляющий собой смесь c-кода (переведенного) с некоторым оставшимся кодом Fortran и кодом оболочки R. Чтобы определить общее наилучшее разделение по точкам останова и переменным mtry, код использует функцию оценки, аналогичную gini-gain:

$GiniGain(N,X)=Gini(N)-\frac{\lvert N_{1} \rvert }{\lvert N \rvert }Gini(N_{1})-\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{2})$

Там , где представляет собой Данная особенность, является узлом , на котором разделение должно быть сделано, и и являются двумя дочерними узлами , созданные расщепления . это количество элементов в узле. $X$ $N$ $N_{1}$ $N_{2}$ $N$ $\lvert . \rvert$

И , где - количество категорий в узле $Gini(N)=1-\sum_{k=1}^{K}p_{k}^2$ $K$

Но применяемая функция скоринга не совсем та же, а эквивалентная, более эффективная в вычислительном отношении версия. и | N | постоянны для всех сравниваемых разбиений и, следовательно, опущены. $Gini(N)$

Также давайте проверим деталь, если сумма квадратов распространенности в узле (1) вычисляется как $\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{2}) \propto |N_2| Gini(N_{2}) = |N_2| (1-\sum_{k=1}^{K}p_{k}^2 ) = |N_2| \sum \frac{nclass_{2,k}^2}{|N_2|^2}$

где - количество классов целевого класса k в дочернем узле 1. Примечание $nclass_{1,k}$ $|N_2|$ помещается как в знаменатель, так и в знаменатель.

удаление тривиальной постоянной $1-$ из уравнения таким образом, что наилучшим решением разделения является максимизация взвешенной по размеру суммы узлов квадратов распространенности классов ...

оценка = $|N_1| \sum_{k=1}^{K}p_{1,k}^2 + |N_2| \sum_{k=1}^{K}p_{2,k}^2 = |N_1|\sum_{k=1}^{K}\frac{nclass_{1,k}^2}{|N_1|^2} + |N_2|\sum_{k=1}^{K}\frac{nclass_{2,k}^2}{|N_2|^2}$ $= \sum_{k=1}^{K}\frac{nclass_{2,k}^2}{1} |N_1|^{-1} + \sum_{k=1}^{K}\frac{nclass_{2,k}^2}{1} |N_1|^{-2}$ $= nominator_1/denominator_1 + nominator_2/denominator_2$

The implementation also allows for classwise up/down weighting of samples. Also very important when the implementation update this modified gini-gain, moving a single sample from one node to the other is very efficient. The sample can be substracted from nominators/denominators of one node and added to the others. I wrote a prototype-RF some months ago, ignorantly recomputing from scratch gini-gain for every break-point and that was slower :)

If several splits scores are best, a random winner is picked.

This answer was based on inspecting source file "randomForest.x.x.tar.gz/src/classTree.c" line 209-250

— Soren Havelund Welling
источник