Чтобы описать ответ @ ziggystar на языке машинного обучения: идея методов агрегации при начальной загрузке (например, случайных лесов) состоит в том, чтобы приспособить многие модели с низким смещением и высокой дисперсией к данным с некоторым элементом «случайности» или «нестабильности». В случае случайных лесов нестабильность добавляется путем начальной загрузки и выбора случайного набора функций для разделения каждого узла дерева. Усредняя по этим шумным, но с низким уклоном, деревья смягчают высокую дисперсию любого отдельного дерева.
В то время как деревья регрессии / классификации представляют собой модели с низким смещением и высокой дисперсией, модели линейной регрессии, как правило, противоположны - «с высоким смещением и низкой дисперсией». Таким образом, проблема, с которой часто сталкиваются линейные модели, заключается в уменьшении смещения, а не уменьшении дисперсии. Агрегация начальной загрузки просто не предназначена для этого.
Дополнительная проблема заключается в том, что при обычной загрузке начальная загрузка может не обеспечивать достаточной «случайности» или «нестабильности». Я ожидал бы, что дерево регрессии будет более чувствительным к случайности выборок начальной загрузки, поскольку каждый лист обычно содержит только несколько точек данных. Кроме того, деревья регрессии могут быть стохастически выращены путем разбиения дерева на случайное подмножество переменных в каждом узле. Смотрите этот предыдущий вопрос, почему это важно: почему случайные леса разбиты на основе m случайных объектов?
Все это, как говорится, вы можете использовать начальную загрузку на линейных моделях [LINK] , и это может быть очень полезно в определенных контекстах. Однако мотивация сильно отличается от методов агрегации при начальной загрузке.
a_0 + a_1 * x_1 + ... + a_d * x_d
полученная в результате усредненная линейная функция (после начальной загрузки) все еще имеет ту же линейную функциональную форму, что и та, с которой вы начинаете (то есть «базовый учащийся»).