Спасибо за очень хороший вопрос! Я постараюсь дать свою интуицию за этим.
Чтобы понять это, запомните «ингредиенты» случайного лесного классификатора (есть некоторые модификации, но это общий конвейер):
- На каждом этапе построения отдельного дерева мы находим наилучшее разделение данных
- При построении дерева мы используем не весь набор данных, а пример начальной загрузки
- Мы агрегируем отдельные выходы дерева путем усреднения (фактически 2 и 3 означают вместе более общую процедуру упаковки в пакеты ).
Предположим, первая точка. Не всегда можно найти лучший раскол. Например, в следующем наборе данных каждое разбиение даст ровно один ошибочно классифицированный объект.
И я думаю, что именно этот момент может сбивать с толку: действительно, поведение отдельного расщепления чем-то похоже на поведение наивного байесовского классификатора: если переменные зависимы - лучшего разделения для деревьев решений не существует, и наивный байесовский классификатор также дает сбой (просто чтобы напомнить: независимые переменные - это главное предположение, которое мы делаем в наивном байесовском классификаторе; все другие предположения исходят из вероятностной модели, которую мы выбираем).
Но здесь есть большое преимущество деревьев решений: мы берем любое разделение и продолжаем разделение дальше. И для следующих расколов мы найдем идеальное разделение (красным).
И поскольку у нас нет вероятностной модели, а есть только бинарное разбиение, нам вообще не нужно делать никаких предположений.
Это было о Дереве Решений, но это также относится и к Случайному Лесу. Разница в том, что для Random Forest мы используем Bootstrap Aggregation. У него нет модели внизу, и единственное предположение, что оно основано на том, что выборка является репрезентативной . Но это обычно распространенное предположение. Например, если один класс состоит из двух компонентов, а в нашем наборе данных один компонент представлен 100 выборками, а другой компонент представлен 1 выборкой - вероятно, большинство отдельных деревьев решений будут видеть только первый компонент, а Случайный лес будет неправильно классифицировать второй. ,
Надеюсь, что это даст дальнейшее понимание.