Почему дерево решений имеет низкий уклон и высокую дисперсию?


15

Вопросов

  1. Зависит ли это от того, мелкое дерево или глубокое? Или мы можем сказать это независимо от глубины / уровня дерева?
  2. Почему уклон низкий и дисперсия высокая? Пожалуйста, объясните интуитивно и математически

Ответы:


4

Немного опоздал на вечеринку, но я чувствую, что на этот вопрос можно использовать ответ с конкретными примерами.

Я напишу краткое изложение этой превосходной статьи: предвзятость-дисперсия-компромисс , которая помогла мне понять тему.

Ошибка предсказания для любого алгоритма машинного обучения может быть разбита на три части:

  • Ошибка смещения
  • Ошибка отклонения
  • Неприводимая ошибка

Неприводимая ошибка

Как следует из названия, это компонент ошибки, который мы не можем исправить, независимо от алгоритма и его выбора параметров. Неприводимая ошибка происходит из-за сложностей, которые просто не фиксируются в тренировочном наборе. Это могут быть атрибуты, которых у нас нет в обучающем наборе, но они независимо влияют на отображение на результат.

Ошибка смещения

Ошибка смещения связана с нашими предположениями о целевой функции. Чем больше предположений (ограничений) мы делаем в отношении целевых функций, тем больше предвзятости мы вводим. Модели с высоким смещением менее гибки, потому что мы наложили больше правил на целевые функции.

Ошибка отклонения

Дисперсионная ошибка - это изменчивость формы целевой функции по отношению к различным обучающим наборам. Модели с небольшой погрешностью не сильно изменятся, если вы замените пару образцов в обучающем наборе. На модели с высокой дисперсией могут повлиять даже небольшие изменения в тренировочном наборе.

Рассмотрим простую линейную регрессию:

Y=b0+b1x

Очевидно, что это довольно ограничительное определение целевой функции, и поэтому эта модель имеет высокий уклон.

С другой стороны, из-за низкой дисперсии, если вы измените пару выборок данных, маловероятно, что это вызовет серьезные изменения в общем отображении, которое выполняет целевая функция. С другой стороны, такие алгоритмы, как k-ближайшие соседи, имеют высокую дисперсию и низкое смещение. Легко представить, как разные образцы могут влиять на поверхность принятия решения KNN.

Как правило, параметрические алгоритмы имеют высокое смещение и низкую дисперсию, и наоборот.

Одной из проблем машинного обучения является поиск правильного баланса ошибки смещения и ошибки дисперсии.

Древо решений

Теперь, когда у нас есть эти определения, также легко увидеть, что деревья решений являются примером модели с низким смещением и высокой дисперсией. Дерево почти не делает предположений о целевой функции, но оно очень подвержено отклонениям в данных.

Существуют ансамблевые алгоритмы, такие как агрегация начальной загрузки и случайный лес, которые стремятся уменьшить дисперсию при небольшой стоимости смещения в дереве решений.


2

Если количество уровней слишком велико, то есть сложное дерево решений, модель склонна к переобучению.

Интуитивно, это можно понять таким образом. Если существует слишком много узлов принятия решений, через которые нужно пройти, прежде чем прийти к результату, т. Е. Число узлов, которые необходимо пройти, прежде чем достичь конечных узлов, велико, условия, которые вы проверяете, становятся мультипликативными. Таким образом, вычисление становится (условие 1) && (условие 2) && (условие 3) && (условие 4) && (условие 5) .

Только если все условия соблюдены, решение принимается. Как видите, это очень хорошо подойдет для тренировочного набора, поскольку вы постоянно сужаете данные. Дерево становится сильно настроенным на данные, присутствующие в обучающем наборе.

Но когда подается новая точка данных, даже если один из параметров слегка отклоняется, условие не будет выполнено, и оно примет неправильную ветвь.


1
  1. Сложное дерево решений (например, глубокое) имеет низкое смещение и высокую дисперсию. Компромисс смещения дисперсии зависит от глубины дерева.

  2. Дерево решений чувствительно к тому, где оно распадается и как оно распадается. Следовательно, даже небольшие изменения значений входных переменных могут привести к очень разной структуре дерева.


4
Я не помню ни одного обычного древовидного алгоритма, на который влияет масштабирование, они не видят значения переменных, только ранги.
Firebug

0

Почему дерево решений имеет низкий уклон и высокую дисперсию? Зависит ли это от того, мелкое дерево или глубокое? Или мы можем сказать это независимо от глубины / уровня дерева? Почему уклон низкий и дисперсия высокая? Пожалуйста, объясните интуитивно и математически.

Смещение против дисперсии

Больше смещения = ошибка из-за более простой модели (не очень хорошо вписывается в данные)

Больше дисперсии = ошибка из-за того, что модель более сложная (слишком хорошо вписывается в данные и учитывает шум в дополнение к внутренним структурам данных)

Все относительно

Я хочу начать с того, что все относительно. Дерево решений в целом имеет низкий уклон и высокую дисперсию, скажем, случайные леса. Точно так же более мелкое дерево будет иметь более высокий уклон и меньшую дисперсию, чем то же дерево с большей глубиной.

Сравнение дисперсии деревьев решений и случайных лесов

Теперь, когда это сгорело, давайте подумаем, почему деревья решений будут хуже в дисперсии (более высокая дисперсия и более низкое смещение), чем, скажем, случайные леса. Алгоритм дерева решений работает так, что данные делятся снова и снова по мере того, как мы спускаемся по дереву, поэтому фактические прогнозы будут делаться с меньшим количеством точек данных. По сравнению с этим случайные леса объединяют решения нескольких деревьев, а также менее коррелированные деревья за счет рандомизации, поэтому модель лучше обобщается (=> работает более надежно по разным наборам данных = меньшая дисперсия). Точно так же мы делаем более упрощенные предположения о случайных лесах, чтобы обращаться только к подмножеству данных и функций, чтобы соответствовать одному дереву, следовательно, более высокий уклон. Кстати, похоже,

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.