Является ли сумма двух деревьев решений эквивалентной одному дереву решений?

Предположим, у нас есть два дерева регрессии (дерево A и дерево B), которые отображают входные данные на выходные данные . Пусть для дерева A и для дерева B. Каждое дерево использует двоичные разбиения с гиперплоскостями в качестве разделяющих функций. $x \in \mathbb{R}^d$ $\hat{y} \in \mathbb{R}$ $\hat{y} = f_A(x)$ $f_B(x)$

Теперь предположим, что мы берем взвешенную сумму выходных данных дерева:

f_{C} (x) = w_{A} f_{A} (x) + w_{B} f_{B} (x)

$f_C(x) = w_A \ f_A(x) + w_B \ f_B(x)$

Является ли функция $f_C$ эквивалентной одному (более глубокому) дереву регрессии? Если ответ «иногда», то при каких условиях?

В идеале я хотел бы разрешить наклонные гиперплоскости (т.е. расщепления, выполненные на линейных комбинациях элементов). Но, если предположить, что однокомпонентные разбиения могут быть приемлемыми, это единственный доступный ответ.

пример

Вот два дерева регрессии, определенные в двумерном входном пространстве:

На рисунке показано, как каждое дерево разделяет входное пространство и вывод для каждого региона (закодировано в оттенках серого). Цветные числа обозначают области входного пространства: 3,4,5,6 соответствуют листовым узлам. 1 является объединением 3 и 4 и т. Д.

Теперь предположим, что мы усредняем выход деревьев A и B:

Средний результат показан слева, с наложением границ решений деревьев A и B. В этом случае можно построить одно более глубокое дерево, выход которого эквивалентен среднему (показан справа). Каждый узел соответствует области входного пространства, которая может быть построена из областей, определенных деревьями A и B (обозначены цветными числами на каждом узле; несколько чисел указывают на пересечение двух областей). Обратите внимание, что это дерево не уникально - мы могли бы начать строить из дерева B вместо дерева A.

Этот пример показывает, что существуют случаи, когда ответ «да». Я хотел бы знать, всегда ли это правда.

regression machine-learning cart

— user20160
источник

Хм .. Если бы это было так, зачем нам тренировать случайный лес? (Поскольку ясно, что линейная комбинация из 500 деревьев может быть повторно выражена как 499 взвешенных парных сумм из 500 деревьев) Хороший вопрос, +1.

— usεr11852 говорит восстановить Monic

интересный вопрос! Я бы предположил, что пространство гипотез деревьев решений и ансамблей деревьев решений (бустинг, линейная комбинация деревьев) будет одинаковым. С нетерпением жду ответа ..

— Лаксан Натан

@ usεr11852 Может быть, потому что использование одного очень большого дерева вместо леса намного медленнее? Как и в нейронных сетях, сети с одним скрытым уровнем уже могут аппроксимировать все непрерывные функции, но добавление слоев делает сеть быстрее. Не говорю, что это так, но это может быть так.

— Харто Сааринен,

@HartoSaarinen: Это интересный способ думать об этом, но я подозреваю, что это нелегко. Принято считать, что очень глубокие деревья могут плохо подходить и обобщать (их прогнозы также весьма нестабильны). Кроме того (с точки зрения скорости) более глубокие деревья требуют экспоненциально большего расщепления и, следовательно, большего времени обучения. (Дерево глубины 10 имеет не более 1023 разбиений, но дерево глубины 20, 1048575 расщепляется. Много работы!)

— usεr11852 говорит Reinstate Monic

@ usεr11852 Я согласен, что это может быть полностью неверно, и ответ может быть совсем другим. Это то, что делает поле настолько интересным в этот момент, очень много открытий!

— Харто Сааринен,

Да, взвешенная сумма деревьев регрессии эквивалентна одному (более глубокому) дереву регрессии.

Универсальный аппроксиматор функций

Дерево регрессии является универсальным аппроксиматором функции (см., Например, cstheory ). Большая часть исследований приближений универсальных функций проводится на искусственных нейронных сетях с одним скрытым слоем (читайте в этом замечательном блоге). Однако большинство алгоритмов машинного обучения являются приближениями универсальных функций.

Быть универсальным аппроксиматором функции означает, что любая произвольная функция может быть приблизительно представлена. Таким образом, независимо от сложности функции универсальное приближение функции может представить ее с любой требуемой точностью. В случае дерева регрессии вы можете представить бесконечно глубокое. Это бесконечно глубокое дерево может присвоить любое значение любой точке пространства.

Поскольку взвешенная сумма дерева регрессии является другой произвольной функцией, существует другое дерево регрессии, которое представляет эту функцию.

Алгоритм создания такого дерева

$T_1$ $T_2$ $T_2$ $T1$ $T1$ $T2$

В приведенном ниже примере показаны два простых дерева с весом 0,5. Обратите внимание, что один узел никогда не будет достигнут, потому что не существует числа, которое меньше 3 и больше 5. Это означает, что эти деревья могут быть улучшены, но это не делает их недействительными.

Зачем использовать более сложные алгоритмы

Интересный дополнительный вопрос был поднят @ usεr11852 в комментариях: зачем нам использовать алгоритмы повышения (или фактически любой сложный алгоритм машинного обучения), если каждая функция может быть смоделирована с помощью простого дерева регрессии?

Деревья регрессии действительно могут представлять любую функцию, но это только один из критериев алгоритма машинного обучения. Еще одно важное свойство - насколько хорошо они обобщают. Деревья глубокой регрессии склонны к переобучению, то есть они плохо обобщаются. Случайный лес усредняет много глубоких деревьев, чтобы предотвратить это.

— Pieter
источник