Являются ли деревья решений почти всегда бинарными деревьями?


21

Почти каждый пример дерева решений, с которым я сталкивался, является двоичным деревом. Это в значительной степени универсально? Поддерживает ли большинство стандартных алгоритмов (C4.5, CART и т. Д.) Только двоичные деревья? Из того, что я понял , CHAID не ограничивается бинарными деревьями, но это, похоже, исключение.

Двухстороннее разделение, сопровождаемое другим двусторонним разделением на одном из детей, не то же самое, что одиночное трехстороннее разделение. Это может быть академическим моментом, но я пытаюсь убедиться, что понимаю наиболее распространенные варианты использования.

Ответы:


18

Это в основном техническая проблема: если вы не ограничиваетесь бинарным выбором, у вас просто слишком много возможностей для следующего разбиения в дереве. Таким образом, вы определенно правы во всех пунктах вашего вопроса.

Имейте в виду, что большинство алгоритмов древовидного типа работают поэтапно и даже не гарантируют наилучшего результата. Это всего лишь одна дополнительная оговорка.

Для большинства практических целей, хотя и не во время построения / обрезки дерева, два вида расщеплений эквивалентны, хотя, учитывая, что они появляются сразу после друг друга.


Просто чтобы усилить ваше первое замечание: количество возможных расщеплений увеличивается в геометрической прогрессии. Если вы разбиваете на непрерывную переменную, которая имеет 1000 различных значений, существует 999 двоичных разбиений, но 999 * 998 тройных разбиений.
Питер Флом - Восстановить Монику

2
@Peter На самом деле есть троичных расщепления. (1000-13-1)знак равно999*998/2
whuber

5

Двухстороннее разделение, сопровождаемое другим двусторонним разделением на одном из детей, не то же самое, что одиночное трехстороннее разделение

Я не уверен, что вы имеете в виду здесь. Любое многогранное разделение может быть представлено как серия двусторонних разделений. Для трехстороннего разделения вы можете разделить на A, B и C, сначала разделив A и B против C, а затем разделив A на B.

Данный алгоритм может не выбирать эту конкретную последовательность (особенно если, как и большинство алгоритмов, он жадный), но он, безусловно, может. И если какие-либо рандомизированные или поэтапные процедуры выполняются, как в случайных лесах или повышенных деревьях, шансы найти правильную последовательность расщеплений возрастают. Как отмечали другие, многоходовые разбиения вычислительно дорогостоящи, поэтому, учитывая эти альтернативы, большинство исследователей, похоже, выбрали двоичные разбиения.

Надеюсь это поможет


3
Да, я понимаю, что A, B и C могут быть достигнуты, сначала разделив A и B против C, а затем разделив A на B. Моя точка зрения заключалась в том, что данный алгоритм может не выбирать эту конкретную последовательность.
Майкл МакГоуэн

2

Что касается использования дерева решений и расщепления (двоичного или другого), я знаю только о CHAID, который имеет недвоичные расщепления, но, вероятно, есть и другие. Для меня основное использование недвоичного разбиения - это упражнения по извлечению данных, в которых я смотрю, как оптимально создать номинальную переменную со многими уровнями. Серия бинарных разбиений не так полезна, как группировка, выполняемая CHAID.


Забавно, что вы упомянули биннинг, потому что размышления о биннинге заставили меня задуматься над этим вопросом (хотя я думал о биннинге числовых переменных, а не номинальных переменных).
Майкл МакГоуэн

@ Майкл, Да, это тоже работает, но вы выбрасываете информацию. Я использую его, когда мне нужно объединить разреженные уровни номинальной переменной - когда окончательное моделирование будет выполнено без подхода древовидного типа (скажем, логистическая регрессия или SVM и много разреженных фиктивных переменных вызывает проблемы)
B_Miner

0

Пожалуйста, прочитайте это

По практическим причинам (комбинаторный взрыв) большинство библиотек реализуют деревья решений с двоичными разбиениями. Приятно то, что они являются NP-полными (Hyafil, Laurent и Ronald L. Rivest. «Построение оптимальных бинарных деревьев решений является NP-полными». Письма для обработки информации 5.1 (1976): 15-17.)

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.