Деревья решений кажутся очень понятным методом машинного обучения. После создания он может быть легко проверен человеком, что является большим преимуществом в некоторых приложениях.
Каковы практические слабые стороны деревьев решений?
Деревья решений кажутся очень понятным методом машинного обучения. После создания он может быть легко проверен человеком, что является большим преимуществом в некоторых приложениях.
Каковы практические слабые стороны деревьев решений?
Ответы:
Вот пара, о которой я могу думать:
Некоторые из них связаны с проблемой мультиколлинеарности : когда две переменные объясняют одно и то же, дерево решений будет жадно выбирать лучший, тогда как многие другие методы будут использовать их оба. Методы ансамбля, такие как случайные леса, могут в некоторой степени отрицать это, но вы теряете легкость понимания.
Однако самой большой проблемой, по крайней мере, с моей точки зрения, является отсутствие принципиальной вероятностной структуры. Многие другие методы имеют такие вещи, как доверительные интервалы, апостериорные распределения и т. Д., Которые дают нам некоторое представление о том, насколько хороша модель. Дерево решений, в конечном счете, представляет собой специальную эвристику, которая все еще может быть очень полезной (они отлично подходят для поиска источников ошибок при обработке данных), но есть опасность, что люди будут воспринимать результат как «правильную» модель (из моей опыт, это часто случается в маркетинге).
Одним из недостатков является то, что все термины должны взаимодействовать. То есть вы не можете иметь две объясняющие переменные, которые ведут себя независимо. Каждая переменная в дереве вынуждена взаимодействовать с каждой переменной дальше по дереву. Это крайне неэффективно, если есть переменные, которые не имеют или имеют слабые взаимодействия.
Мой ответ направлен на CART (реализации C 4.5 / C 5), хотя я не думаю, что они ограничены. Я предполагаю, что именно это имеет в виду ФП - обычно это то, что кто-то имеет в виду, когда говорит «Дерево решений».
Ограничения деревьев решений :
Low-Performance
Под «производительностью» я подразумеваю не разрешение, а скорость исполнения . Причина, по которой он плох, заключается в том, что вам нужно «перерисовывать дерево» каждый раз, когда вы хотите обновить свою модель CART - данные, классифицированные по уже обученному дереву, которые затем вы хотите добавить в дерево (т. Е. Использовать в качестве пункт обучающих данных) требует, чтобы вы начинали с обучающих экземпляров, которые не могут быть добавлены постепенно, как это можно сделать для большинства других контролируемых алгоритмов обучения. Возможно, лучший способ заявить об этом - то, что деревья решений не могут быть обучены в режиме онлайн, а только в пакетном режиме. Очевидно, вы не заметите это ограничение, если не обновите свой классификатор, но тогда я ожидаю, что вы увидите снижение разрешения.
Это важно, потому что, например, для многослойного персептрона, когда он обучен, он может начать классифицировать данные; эти данные также можно использовать для «настройки» уже обученного классификатора, хотя в деревьях решений вам необходимо переобучаться всему набору данных (исходные данные, используемые в обучении, а также любые новые экземпляры).
Плохое разрешение данных со сложными отношениями между переменными
Деревья решений классифицируют путем пошаговой оценки точки данных неизвестного класса, один узел за раз, начиная с корневого узла и заканчивая терминальным узлом. И на каждом узле возможны только две возможности (слева направо), поэтому существуют переменные отношения, которые деревья решений просто не могут выучить.
Практически ограничен классификацией
Деревья решений работают лучше всего, когда их обучают назначать точку данных классу, предпочтительно одному из нескольких возможных классов. Я не верю, что мне когда-либо удавалось использовать дерево решений в режиме регрессии (т. Е. Непрерывный выпуск, такой как цена или ожидаемый доход за всю жизнь). Это не формальное или неотъемлемое ограничение, а практическое. В большинстве случаев деревья решений используются для прогнозирования факторов или дискретных результатов.
Плохое разрешение с постоянными переменными ожидания
Опять же, в принципе, нормально иметь независимые переменные, такие как «время загрузки» или «количество дней с момента предыдущей онлайн-покупки» - просто измените критерий разделения на дисперсию (обычно это информационная энтропия или нечистота Джини для дискретных переменных), но в моем случае Опыт Деревья решений редко работают хорошо в этом случае. Исключение составляют случаи типа «возраст учащегося», который выглядит непрерывным, но на практике диапазон значений довольно мал (особенно, если они указаны как целые числа).
Здесь есть хорошие ответы, но я удивлен, что одна вещь не была подчеркнута. CART не делает никаких предположений о распределении данных, в частности, переменной ответа. В противоположность этому , МНК (для непрерывных переменных отклика) и логистической регрессии (для определенных категориальных переменных отклика), например, действительно делают сильные предположения; в частности, регрессия OLS предполагает, что ответ условно нормально распределен, а логистика предполагает, что ответ является биномиальным или полиномиальным.
Отсутствие таких предположений у CART - обоюдоострый меч. Когда эти предположения не обоснованы, это дает подходу относительное преимущество. С другой стороны, когда эти предположения верны, из данных можно извлечь больше информации, принимая во внимание эти факты. То есть стандартные методы регрессии могут быть более информативными, чем CART, если предположения верны.