Что означает «размер узла» в случайном лесу?


20

Я не понимаю точно, что подразумевается под размером узла. Я знаю, что такое узел принятия решения, но не знаю, какой это размер узла.

Ответы:


24

Дерево решений работает путем рекурсивного разбиения обучающего набора. Каждый узел дерева решений связан с набором данных из обучающего набора:tnt

n_t - размер каждого узла

Вы можете найти этот параметр nodesizeв некоторых пакетах с произвольным лесом, например R : это минимальный размер узла , в приведенном выше примере минимальный размер узла равен 10. Этот параметр неявно устанавливает глубину ваших деревьев.

nodesize из пакета случайных лесов R

Минимальный размер терминальных узлов. Увеличение этого числа приводит к выращиванию деревьев меньшего размера (и, таким образом, занимает меньше времени). Обратите внимание, что значения по умолчанию различаются для классификации (1) и регрессии (5).

В других пакетах вы непосредственно найдете параметр depth, например, WEKA :

-depth из пакета случайных лесов WEKA

Максимальная глубина деревьев 0 для неограниченной. (по умолчанию 0)


1
Что такое «записи»? Вы имеете в виду точки данных? Почему каждый узел связан с набором записей? Я хорошо понимаю случайные леса, но не знаю, что означает жаргон.
wolfsatthedoor

Да, я имел в виду точку данных. Обычно вы можете ссылаться на точки данных как на записи, экземпляры или примеры.
Симона

Так есть ли практическое правило минимального размера узла, чтобы избежать наложения деревьев? Я предполагаю, что это зависит от размера обучающих данных, так что, возможно, определенная доля размера набора данных?
Seanosapien

1
В случайных лесах деревья полностью выращены: размер узла равен 1. Избегать переоснащения, выращивая много деревьев. В дереве решений это более сложно. Деревья не полностью выращены, и вам нужно выполнять обрезку, чтобы избежать переобучения.
Симона

1
Похоже, что веяние - это некий выбор функций, который упрощает дерево и позволяет избежать переобучения. Я думаю, что обрезка одного дерева всегда полезна. Вместо этого веяние может иногда снижать точность, но упрощает дерево.
Симона

2

Неясно, находится ли размер узла на выборке «в пакете» или на ошибке «вне пакета». Если он находится на выборке «вне пакета», это немного более ограничительно.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.