Почему дерево в мешках / случайное лесное дерево имеет более высокий уклон, чем одно дерево решений?

11

Если мы рассмотрим полноценное дерево решений (т.е. дерево необрезанных решений), оно имеет высокую дисперсию и низкое смещение.

Мешки и случайные леса используют эти модели высокой дисперсии и агрегируют их, чтобы уменьшить дисперсию и, таким образом, повысить точность прогнозирования. И Мешки, и Случайные Леса используют выборку Bootstrap, и, как описано в разделе «Элементы статистического обучения», это увеличивает смещение в одном дереве.

Кроме того, поскольку метод Random Forest ограничивает допустимые переменные для разделения в каждом узле, смещение для отдельного дерева случайных лесов увеличивается еще больше.

Таким образом, точность прогноза увеличивается только в том случае, если увеличение смещения отдельных деревьев в пакетном и случайном лесах не «перекрывает» уменьшение дисперсии.

Это подводит меня к двум следующим вопросам: 1) Я знаю, что при выборке при начальной загрузке мы (почти всегда) будем иметь некоторые из тех же наблюдений в выборке при начальной загрузке. Но почему это приводит к увеличению смещения отдельных деревьев в Багинге / Случайных Лесах? 2) Кроме того, почему ограничение доступных переменных для разделения в каждом разделении приводит к более высокому смещению в отдельных деревьях в случайных лесах?

— C. Рефсгаард
источник

5

Я приму ответ 1) от Куньлунь, но просто чтобы закрыть это дело, я приведу здесь выводы по двум вопросам, которые я достиг в своей диссертации (оба были приняты моим руководителем):

1) Чем больше данных, тем лучше модели, и поскольку для обучения модели мы используем только часть целых данных обучения (начальная загрузка), в каждом дереве наблюдается более высокий уклон (Копия из ответа Куньлунь)

2) В алгоритме «Случайные леса» мы ограничиваем количество переменных, на которые нужно разделить каждое разбиение, т. Е. Ограничиваем количество переменных, с которыми должны объясняться наши данные. Опять же, более высокий уклон происходит в каждом дереве.

Вывод: Обе ситуации ограничивают нашу способность объяснять совокупность: сначала мы ограничиваем количество наблюдений, а затем ограничиваем количество переменных, на которые нужно разделить каждый раздел. Оба ограничения приводят к более высокому смещению в каждом дереве, но часто уменьшение дисперсии в модели перекрывает увеличение смещения в каждом дереве, и, таким образом, пакетирование и случайные леса имеют тенденцию создавать лучшую модель, чем просто одно дерево решений.

— C. Рефсгаард
источник

-1

Ваши вопросы довольно просты. 1) Чем больше данных, тем лучше модель, так как вы используете только часть целых данных обучения для обучения своей модели (начальной загрузки), разумнее будет более высокий уклон. 2) Больше разбиений означает более глубокие деревья или более чистые узлы. Это обычно приводит к высокой дисперсии и низкому смещению. Если вы ограничите разделение, уменьшите дисперсию и увеличьте смещение.

— Куньлунь
источник

4

Я не совсем согласен с аргументом в пользу 1), поскольку каждая выборка начальной загрузки одинаково вероятна, а смещение связано с поведением средней модели. Кажется, что это должно быть более тонким, чем это. Я тоже не думаю, что 2) отвечает на заданный вопрос. Плакат не означает «предел расщепления», как в «растут более мелкие деревья».

— Мэтью Друри