Случайные лесные предположения


43

Я новичок в случайном лесу, поэтому я все еще борюсь с некоторыми основными понятиями.
В линейной регрессии мы предполагаем независимые наблюдения, постоянную дисперсию ...

  • Какие основные предположения / гипотезы мы делаем, когда используем случайный лес?
  • Каковы основные различия между случайным лесом и наивным байесом с точки зрения модельных предположений?

Ответы:


33

Спасибо за очень хороший вопрос! Я постараюсь дать свою интуицию за этим.

Чтобы понять это, запомните «ингредиенты» случайного лесного классификатора (есть некоторые модификации, но это общий конвейер):

  1. На каждом этапе построения отдельного дерева мы находим наилучшее разделение данных
  2. При построении дерева мы используем не весь набор данных, а пример начальной загрузки
  3. Мы агрегируем отдельные выходы дерева путем усреднения (фактически 2 и 3 означают вместе более общую процедуру упаковки в пакеты ).

Предположим, первая точка. Не всегда можно найти лучший раскол. Например, в следующем наборе данных каждое разбиение даст ровно один ошибочно классифицированный объект. Пример набора данных без лучшего разделения

И я думаю, что именно этот момент может сбивать с толку: действительно, поведение отдельного расщепления чем-то похоже на поведение наивного байесовского классификатора: если переменные зависимы - лучшего разделения для деревьев решений не существует, и наивный байесовский классификатор также дает сбой (просто чтобы напомнить: независимые переменные - это главное предположение, которое мы делаем в наивном байесовском классификаторе; все другие предположения исходят из вероятностной модели, которую мы выбираем).

Но здесь есть большое преимущество деревьев решений: мы берем любое разделение и продолжаем разделение дальше. И для следующих расколов мы найдем идеальное разделение (красным). Пример границы решения

И поскольку у нас нет вероятностной модели, а есть только бинарное разбиение, нам вообще не нужно делать никаких предположений.

Это было о Дереве Решений, но это также относится и к Случайному Лесу. Разница в том, что для Random Forest мы используем Bootstrap Aggregation. У него нет модели внизу, и единственное предположение, что оно основано на том, что выборка является репрезентативной . Но это обычно распространенное предположение. Например, если один класс состоит из двух компонентов, а в нашем наборе данных один компонент представлен 100 выборками, а другой компонент представлен 1 выборкой - вероятно, большинство отдельных деревьев решений будут видеть только первый компонент, а Случайный лес будет неправильно классифицировать второй. , Пример слабо представленного второго компонента

Надеюсь, что это даст дальнейшее понимание.


10

В одной статье 2010 года авторы документировали, что модели случайных лесов ненадежно оценивали важность переменных, когда переменные были многолинейными в многомерном статистическом пространстве. Я обычно проверяю это перед запуском случайных моделей леса.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1


3
Вы верите выводам «Количественной оценки связности Борейского национального парка в Йеллоустонском национальном парке с использованием ландшафтной генетики» в Экологии, написанной авторами из штата Колорадо над авторами из Беркли из «Машинного обучения» на тему алгоритмов машинного обучения?
Hack-R

8
Я не думаю, что они противоречат друг другу. Брейман не исследовал этот «особый случай» мультиколлинеарности в многомерном пространстве. Кроме того, люди в штате Колорадо тоже могут быть умными, как и эти парни.
Мина
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.