Я перечислю некоторые свойства и позже дам вам мою оценку того, что стоит:
- CHAID по умолчанию использует многострочное разбиение (многострочное разбиение означает, что текущий узел разбит на более чем два узла). Это может или не может быть желательным (это может привести к лучшим сегментам или более легкой интерпретации). Однако он определенно уменьшает размер выборки в узлах и, следовательно, приводит к менее глубоким деревьям. При использовании в целях сегментации это может иметь неприятные последствия в ближайшее время, так как CHAID нужен большой размер выборки для правильной работы. CART выполняет двоичное разбиение (каждый узел делится на два дочерних узла) по умолчанию.
- CHAID предназначен для работы с категориальными / дискретизированными целями (XAID был для регрессии, но, возможно, они были объединены с тех пор). CART определенно может сделать регрессию и классификацию.
- CHAID использует идею предварительной обрезки . Узел разделяется только в случае выполнения критерия значимости. Это связано с вышеупомянутой проблемой необходимости больших размеров выборки, так как тест хи-квадрат имеет лишь небольшую мощность в малых выборках (которая эффективно уменьшается еще больше за счет поправки Бонферрони для многократного тестирования). CART, с другой стороны, выращивает большое дерево, а затем обрезает дерево обратно в уменьшенную версию.
- Таким образом, CHAID пытается предотвратить переоснащение с самого начала (только расщепление, если есть значительная связь), тогда как CART может легко переопределить, если дерево не будет сокращено обратно. С другой стороны, это позволяет CART работать лучше, чем CHAID на входе и выходе (для заданной комбинации параметров настройки).
- Самое важное различие, на мой взгляд, состоит в том, что выбор переменной разделения и точки разделения в CHAID не так сильно смешивается, как в CART . Это в значительной степени не имеет значения, когда деревья используются для предсказания, но является важной проблемой, когда деревья используются для интерпретации: дерево, в котором эти две части алгоритма сильно смешаны, называется «смещенным при выборе переменной» (неудачное имя) , Это означает, что выбор переменных разделения предпочитает переменные со многими возможными разделениями (скажем, метрическими предикторами). КОРЗИНА в этом смысле весьма «предвзята», но не так сильно.
- С суррогатными разбиениями CART знает, как обрабатывать пропущенные значения (суррогатные разбиения означают, что при пропущенных значениях (NA) для переменных предиктора алгоритм использует другие переменные предиктора, которые не так хороши, как первичная переменная разбиения, но имитируют расщепления, производимые первичными разветвитель). У CHAID такого нет, афаик.
Поэтому в зависимости от того, что вам нужно, я бы предложил использовать CHAID, если выборка имеет некоторый размер и аспекты интерпретации более важны. Кроме того, если требуется многоходовое расщепление или более мелкие деревья, то лучше использовать CHAID. CART, с другой стороны, является хорошо работающей машиной прогнозирования, поэтому, если прогноз является вашей целью, я бы пошел на CART.