Улавливают ли деревья CART взаимодействия между предикторами?

9

В этой статье утверждается, что в CART, поскольку двоичное разбиение выполняется в одной ковариате на каждом шаге, все разбиения являются ортогональными и, следовательно, взаимодействия между ковариатами не рассматриваются.

Тем не менее, многие очень серьезные ссылки утверждают, напротив, что иерархическая структура дерева гарантирует, что взаимодействия между предикторами будут автоматически смоделированы (например, эта статья и, конечно, Hastie).

Кто прав? Собирают ли CART-деревья взаимодействия между входными переменными?

— Antoine
источник

Недостаток аргумента состоит в том, что разбиения выполняются на подмножествах ковариат, определенных ранее выполненными разбиениями.

@mbq, так что новые расщепления являются условными по отношению к предыдущим расщеплениям ... Понятно ... Мне было трудно понять, что "обусловлено предыдущим расщеплением, выполненным для данного предиктора", было эквивалентно "взаимодействию с этим предиктором" "...

— Антуан

12

$X_1$ $X_2$ $X_1$ $Y$ $X_2$

введите описание изображения здесь

$X_1$ $X_2$

— TrynnaDoStat
источник

2

Короткий ответ

CARTs нужна помощь в захвате взаимодействий.

Длинный ответ

Возьмите точный жадный алгоритм (Chen and Guestrin, 2016):

Среднее значение на листе будет условным ожиданием, но каждое разбиение на пути к листу не зависит от другого. Если функция A не имеет значения сама по себе, но имеет значение при взаимодействии с функцией B, алгоритм не будет разделен на функцию A. Без этого разделения алгоритм не может предвидеть разделение для функции B, необходимое для генерации взаимодействия.

$x_1, x_2$ $y = XOR(x_1, x_2)$ $x_1$ $x_2$ $XOR$

Благодаря множеству функций, регуляризации и жесткому ограничению количества разбиений один и тот же алгоритм может пропускать взаимодействия.

обходные

Явные взаимодействия как новые функции

Пример из Чжана («Победа в соревнованиях по науке о данных», 2015):

Не жадные алгоритмы дерева

В другом вопросе Симона предлагает алгоритмы, основанные на прогнозировании и косые деревья решений .

Другой подход к обучению

Некоторые методы обучения лучше обрабатывают взаимодействия.

Вот таблица из «Элемента статистического обучения» (строка «Способность извлекать линейные комбинации признаков»):

— Антон Тарасенко
источник