Вопросов
- Зависит ли это от того, мелкое дерево или глубокое? Или мы можем сказать это независимо от глубины / уровня дерева?
- Почему уклон низкий и дисперсия высокая? Пожалуйста, объясните интуитивно и математически
Вопросов
Ответы:
Немного опоздал на вечеринку, но я чувствую, что на этот вопрос можно использовать ответ с конкретными примерами.
Я напишу краткое изложение этой превосходной статьи: предвзятость-дисперсия-компромисс , которая помогла мне понять тему.
Ошибка предсказания для любого алгоритма машинного обучения может быть разбита на три части:
Неприводимая ошибка
Как следует из названия, это компонент ошибки, который мы не можем исправить, независимо от алгоритма и его выбора параметров. Неприводимая ошибка происходит из-за сложностей, которые просто не фиксируются в тренировочном наборе. Это могут быть атрибуты, которых у нас нет в обучающем наборе, но они независимо влияют на отображение на результат.
Ошибка смещения
Ошибка смещения связана с нашими предположениями о целевой функции. Чем больше предположений (ограничений) мы делаем в отношении целевых функций, тем больше предвзятости мы вводим. Модели с высоким смещением менее гибки, потому что мы наложили больше правил на целевые функции.
Ошибка отклонения
Дисперсионная ошибка - это изменчивость формы целевой функции по отношению к различным обучающим наборам. Модели с небольшой погрешностью не сильно изменятся, если вы замените пару образцов в обучающем наборе. На модели с высокой дисперсией могут повлиять даже небольшие изменения в тренировочном наборе.
Рассмотрим простую линейную регрессию:
Y=b0+b1x
Очевидно, что это довольно ограничительное определение целевой функции, и поэтому эта модель имеет высокий уклон.
С другой стороны, из-за низкой дисперсии, если вы измените пару выборок данных, маловероятно, что это вызовет серьезные изменения в общем отображении, которое выполняет целевая функция. С другой стороны, такие алгоритмы, как k-ближайшие соседи, имеют высокую дисперсию и низкое смещение. Легко представить, как разные образцы могут влиять на поверхность принятия решения KNN.
Как правило, параметрические алгоритмы имеют высокое смещение и низкую дисперсию, и наоборот.
Одной из проблем машинного обучения является поиск правильного баланса ошибки смещения и ошибки дисперсии.
Древо решений
Теперь, когда у нас есть эти определения, также легко увидеть, что деревья решений являются примером модели с низким смещением и высокой дисперсией. Дерево почти не делает предположений о целевой функции, но оно очень подвержено отклонениям в данных.
Существуют ансамблевые алгоритмы, такие как агрегация начальной загрузки и случайный лес, которые стремятся уменьшить дисперсию при небольшой стоимости смещения в дереве решений.
Если количество уровней слишком велико, то есть сложное дерево решений, модель склонна к переобучению.
Интуитивно, это можно понять таким образом. Если существует слишком много узлов принятия решений, через которые нужно пройти, прежде чем прийти к результату, т. Е. Число узлов, которые необходимо пройти, прежде чем достичь конечных узлов, велико, условия, которые вы проверяете, становятся мультипликативными. Таким образом, вычисление становится (условие 1) && (условие 2) && (условие 3) && (условие 4) && (условие 5) .
Только если все условия соблюдены, решение принимается. Как видите, это очень хорошо подойдет для тренировочного набора, поскольку вы постоянно сужаете данные. Дерево становится сильно настроенным на данные, присутствующие в обучающем наборе.
Но когда подается новая точка данных, даже если один из параметров слегка отклоняется, условие не будет выполнено, и оно примет неправильную ветвь.
Сложное дерево решений (например, глубокое) имеет низкое смещение и высокую дисперсию. Компромисс смещения дисперсии зависит от глубины дерева.
Дерево решений чувствительно к тому, где оно распадается и как оно распадается. Следовательно, даже небольшие изменения значений входных переменных могут привести к очень разной структуре дерева.
Почему дерево решений имеет низкий уклон и высокую дисперсию? Зависит ли это от того, мелкое дерево или глубокое? Или мы можем сказать это независимо от глубины / уровня дерева? Почему уклон низкий и дисперсия высокая? Пожалуйста, объясните интуитивно и математически.
Смещение против дисперсии
Больше смещения = ошибка из-за более простой модели (не очень хорошо вписывается в данные)
Больше дисперсии = ошибка из-за того, что модель более сложная (слишком хорошо вписывается в данные и учитывает шум в дополнение к внутренним структурам данных)
Все относительно
Я хочу начать с того, что все относительно. Дерево решений в целом имеет низкий уклон и высокую дисперсию, скажем, случайные леса. Точно так же более мелкое дерево будет иметь более высокий уклон и меньшую дисперсию, чем то же дерево с большей глубиной.
Сравнение дисперсии деревьев решений и случайных лесов
Теперь, когда это сгорело, давайте подумаем, почему деревья решений будут хуже в дисперсии (более высокая дисперсия и более низкое смещение), чем, скажем, случайные леса. Алгоритм дерева решений работает так, что данные делятся снова и снова по мере того, как мы спускаемся по дереву, поэтому фактические прогнозы будут делаться с меньшим количеством точек данных. По сравнению с этим случайные леса объединяют решения нескольких деревьев, а также менее коррелированные деревья за счет рандомизации, поэтому модель лучше обобщается (=> работает более надежно по разным наборам данных = меньшая дисперсия). Точно так же мы делаем более упрощенные предположения о случайных лесах, чтобы обращаться только к подмножеству данных и функций, чтобы соответствовать одному дереву, следовательно, более высокий уклон. Кстати, похоже,