При изучении Gradient Boosting я не слышал о каких-либо ограничениях в отношении свойств «слабого классификатора», который метод использует для построения и ансамбля модели. Однако я не мог представить себе применение ГБ, которое использует линейную регрессию, и на самом деле, когда я выполнил некоторые тесты - это не работает. Я тестировал самый стандартный подход с градиентом суммы квадратов невязок и складывал последующие модели вместе.
Очевидная проблема заключается в том, что остатки из первой модели заполняются таким образом, что на самом деле нет никакой линии регрессии, которая бы подходила больше. Мое другое наблюдение состоит в том, что сумма последующих моделей линейной регрессии также может быть представлена в виде одной модели регрессии (с добавлением всех перехватов и соответствующих коэффициентов), поэтому я не могу представить, как это могло бы улучшить модель. Последнее наблюдение состоит в том, что линейная регрессия (наиболее типичный подход) использует сумму квадратов невязок в качестве функции потерь - ту же, что используется в GB.
Я также думал о снижении скорости обучения или использовании только подмножества предикторов для каждой итерации, но в конечном итоге это можно было бы суммировать с одним представлением модели, поэтому я думаю, что это не принесет никаких улучшений.
Что мне здесь не хватает? Является ли линейная регрессия как-то неподходящей для использования с градиентным ускорением? Это потому, что линейная регрессия использует сумму квадратов невязок в качестве функции потерь? Существуют ли какие-то конкретные ограничения на слабые предикторы, чтобы их можно было применять для повышения градиента?