Если мы рассмотрим полноценное дерево решений (т.е. дерево необрезанных решений), оно имеет высокую дисперсию и низкое смещение.
Мешки и случайные леса используют эти модели высокой дисперсии и агрегируют их, чтобы уменьшить дисперсию и, таким образом, повысить точность прогнозирования. И Мешки, и Случайные Леса используют выборку Bootstrap, и, как описано в разделе «Элементы статистического обучения», это увеличивает смещение в одном дереве.
Кроме того, поскольку метод Random Forest ограничивает допустимые переменные для разделения в каждом узле, смещение для отдельного дерева случайных лесов увеличивается еще больше.
Таким образом, точность прогноза увеличивается только в том случае, если увеличение смещения отдельных деревьев в пакетном и случайном лесах не «перекрывает» уменьшение дисперсии.
Это подводит меня к двум следующим вопросам: 1) Я знаю, что при выборке при начальной загрузке мы (почти всегда) будем иметь некоторые из тех же наблюдений в выборке при начальной загрузке. Но почему это приводит к увеличению смещения отдельных деревьев в Багинге / Случайных Лесах? 2) Кроме того, почему ограничение доступных переменных для разделения в каждом разделении приводит к более высокому смещению в отдельных деревьях в случайных лесах?