CHAID против CRT (или CART)

Я выполняю классификацию дерева решений с использованием SPSS для набора данных, содержащего около 20 предикторов (категориальных с несколькими категориями). CHAID (автоматическое обнаружение взаимодействия по критерию хи-квадрат) и CRT / CART (деревья классификации и регрессии) дают мне разные деревья. Кто-нибудь может объяснить относительные преимущества CHAID против CRT? Каковы последствия использования одного метода над другим?

spss cart

— Placidia
источник

Я перечислю некоторые свойства и позже дам вам мою оценку того, что стоит:

CHAID по умолчанию использует многострочное разбиение (многострочное разбиение означает, что текущий узел разбит на более чем два узла). Это может или не может быть желательным (это может привести к лучшим сегментам или более легкой интерпретации). Однако он определенно уменьшает размер выборки в узлах и, следовательно, приводит к менее глубоким деревьям. При использовании в целях сегментации это может иметь неприятные последствия в ближайшее время, так как CHAID нужен большой размер выборки для правильной работы. CART выполняет двоичное разбиение (каждый узел делится на два дочерних узла) по умолчанию.
CHAID предназначен для работы с категориальными / дискретизированными целями (XAID был для регрессии, но, возможно, они были объединены с тех пор). CART определенно может сделать регрессию и классификацию.
CHAID использует идею предварительной обрезки . Узел разделяется только в случае выполнения критерия значимости. Это связано с вышеупомянутой проблемой необходимости больших размеров выборки, так как тест хи-квадрат имеет лишь небольшую мощность в малых выборках (которая эффективно уменьшается еще больше за счет поправки Бонферрони для многократного тестирования). CART, с другой стороны, выращивает большое дерево, а затем обрезает дерево обратно в уменьшенную версию.
Таким образом, CHAID пытается предотвратить переоснащение с самого начала (только расщепление, если есть значительная связь), тогда как CART может легко переопределить, если дерево не будет сокращено обратно. С другой стороны, это позволяет CART работать лучше, чем CHAID на входе и выходе (для заданной комбинации параметров настройки).
Самое важное различие, на мой взгляд, состоит в том, что выбор переменной разделения и точки разделения в CHAID не так сильно смешивается, как в CART . Это в значительной степени не имеет значения, когда деревья используются для предсказания, но является важной проблемой, когда деревья используются для интерпретации: дерево, в котором эти две части алгоритма сильно смешаны, называется «смещенным при выборе переменной» (неудачное имя) , Это означает, что выбор переменных разделения предпочитает переменные со многими возможными разделениями (скажем, метрическими предикторами). КОРЗИНА в этом смысле весьма «предвзята», но не так сильно.
С суррогатными разбиениями CART знает, как обрабатывать пропущенные значения (суррогатные разбиения означают, что при пропущенных значениях (NA) для переменных предиктора алгоритм использует другие переменные предиктора, которые не так хороши, как первичная переменная разбиения, но имитируют расщепления, производимые первичными разветвитель). У CHAID такого нет, афаик.

Поэтому в зависимости от того, что вам нужно, я бы предложил использовать CHAID, если выборка имеет некоторый размер и аспекты интерпретации более важны. Кроме того, если требуется многоходовое расщепление или более мелкие деревья, то лучше использовать CHAID. CART, с другой стороны, является хорошо работающей машиной прогнозирования, поэтому, если прогноз является вашей целью, я бы пошел на CART.

— Момо
источник

(+1). Хороший обзор. Не могли бы вы объяснить, что такое "множественные расщепления" и "суррогатные расщепления"? Являются ли множественные расщепления, если расщепления не дихотомические?

— COOLSerdash

@Momo: Большое спасибо за обновленный ответ. Относительно многолинейных расщеплений я нашел следующее интересное утверждение от Hastie et al. (2013) Элементы статистического обучения : «[...] Хотя это [многоходовые разбиения] иногда могут быть полезны, это не очень хорошая общая стратегия. [...] Так как множественные разбиения могут быть достигнуты с помощью серии двоичных расщепляется, последние предпочтительнее ". Интересно, действительно ли это так определенно, как они утверждают (я не очень разбираюсь в машинном обучении), но с другой стороны, их книга считается справочной.

— COOLSerdash

Да, серия двоичных разбиений может быть такой же, как и многострочные. Они также могут быть разными. Я склонен согласиться с утверждением. Еще одна вещь, которую следует отметить, заключается в том, что поиск точек разделения с помощью исчерпывающего поиска алгоритмически проще и быстрее для двоичных разбиений данного узла.

— Момо

Очень полный ответ. Я использовал CHAID в исследовании с более чем 100 000 баз данных. На этом уровне классификация очень точна, но я рекомендую попробовать несколько раз с различным количеством разделов и менее глубокими уровнями дерева (программное обеспечение SPSS позволяет предварительно определить эти параметры). Это связано с тем, что CHAID генерирует деревья классификаций с несколькими группами (мультисплит) и намного хуже, если база данных большая. Финальное дерево может быть огромным. Наконец, не забудьте использовать «внутренний контроль» выборочного деления базы данных. См. Также Руководство по деревьям классификации SPSS, доступное на goo

— user35523

Что насчет КВЕСТА ??

— Мадху Сарин

Все методы с одним деревом включают в себя ошеломляющее количество множественных сравнений, которые приносят большую нестабильность в результат. Вот почему для достижения удовлетворительной прогностической дискриминации необходима некоторая форма усреднения деревьев (суммирование, бустинг, случайные леса) (за исключением того, что вы теряете преимущество деревьев - интерпретируемость). Простота одиночных деревьев в значительной степени иллюзия. Они просты, потому что они ошибочны в том смысле, что при обучении дерева нескольким большим подмножествам данных будут обнаружены большие разногласия между древовидными структурами.

Я не смотрел ни на одну из последних методологий CHAID, но CHAID в своем первоначальном воплощении был отличным упражнением в чрезмерной интерпретации данных.

— Фрэнк Харрелл
источник