Может ли метод случайного леса применяться к линейным регрессиям?


14

Случайные леса работают путем создания множества деревьев решений, где каждое дерево создается с использованием начальной загрузки исходных обучающих данных (выборка как входных переменных, так и наблюдений).

Можно ли применить аналогичный процесс для линейной регрессии? Создайте k моделей линейной регрессии, используя случайную выборку начальной загрузки для каждой из k регрессий

Каковы причины НЕ создавать модель, подобную «случайной регрессии»?

Благодарю. Если я что-то недопонимаю, пожалуйста, дайте мне знать.


При начальной загрузке агрегирующих деревьев общая функция регрессии становится все более сложной с каждым добавляемым деревом. С другой стороны, при начальной загрузке агрегирующих линейных функций формы a_0 + a_1 * x_1 + ... + a_d * x_dполученная в результате усредненная линейная функция (после начальной загрузки) все еще имеет ту же линейную функциональную форму, что и та, с которой вы начинаете (то есть «базовый учащийся»).
Андре Хольцнер

1
@ Андре Хольцнер - то, что вы говорите, правда, но, но, но ... но делать этот случайный форрест на самом деле является формой регуляризации, подобной классу риджинга. Я расскажу вам секрет: дерево регрессии на самом деле является линейной моделью - класс, похожий на сплайны. Если надеть мою байесовскую шляпу, случайный регулятивный регуляризатор, скорее всего, будет приблизительно соответствовать априорным элементам «шип и плита», используемым в байесовском контексте.
вероятностная

@probabilityislogic, можешь объяснить?
Саймон Куанг,

Вы можете думать о деревьях как о линейной модели . Z t является матрицей проекта, указывающей, какому терминальному узлу принадлежит каждое наблюдение для дерева t , а θ t является соответствующим вектором предсказаний терминальных узлов. Любое дерево может быть описано таким образом - выбор дерева эквивалентен стандартному выбору линейной модели в пространстве Z t, - я думаю, что существует 2 n возможных конфигураций «терминального узла» (где n - размер обучающей выборки). y=Ztθt+eZttθtZt2nn
вероятностная логика

Ответы:


5

Я частично не согласен с настоящими ответами, потому что методология, основанная на случайном лесе, вводит дисперсию (CART, основанную на загрузочных выборках + метод случайных подпространств), чтобы сделать их независимыми. Если у вас есть ортогональные деревья, то среднее их предсказаний (во многих случаях) будет лучше, чем предсказание среднего дерева (из-за неравенства Дженсена). Несмотря на то, что у CART есть заметные льготы, когда этот метод подвергается лечению, эта методология определенно применима к любой модели, и линейные модели не являются исключением. Вот пакет R, который именно то, что вы ищете. В нем представлен хороший учебник о том, как их настраивать и интерпретировать, а также библиография по теме: случайные обобщенные линейные модели .


14

Чтобы описать ответ @ ziggystar на языке машинного обучения: идея методов агрегации при начальной загрузке (например, случайных лесов) состоит в том, чтобы приспособить многие модели с низким смещением и высокой дисперсией к данным с некоторым элементом «случайности» или «нестабильности». В случае случайных лесов нестабильность добавляется путем начальной загрузки и выбора случайного набора функций для разделения каждого узла дерева. Усредняя по этим шумным, но с низким уклоном, деревья смягчают высокую дисперсию любого отдельного дерева.

В то время как деревья регрессии / классификации представляют собой модели с низким смещением и высокой дисперсией, модели линейной регрессии, как правило, противоположны - «с высоким смещением и низкой дисперсией». Таким образом, проблема, с которой часто сталкиваются линейные модели, заключается в уменьшении смещения, а не уменьшении дисперсии. Агрегация начальной загрузки просто не предназначена для этого.

Дополнительная проблема заключается в том, что при обычной загрузке начальная загрузка может не обеспечивать достаточной «случайности» или «нестабильности». Я ожидал бы, что дерево регрессии будет более чувствительным к случайности выборок начальной загрузки, поскольку каждый лист обычно содержит только несколько точек данных. Кроме того, деревья регрессии могут быть стохастически выращены путем разбиения дерева на случайное подмножество переменных в каждом узле. Смотрите этот предыдущий вопрос, почему это важно: почему случайные леса разбиты на основе m случайных объектов?

Все это, как говорится, вы можете использовать начальную загрузку на линейных моделях [LINK] , и это может быть очень полезно в определенных контекстах. Однако мотивация сильно отличается от методов агрегации при начальной загрузке.


Спасибо за ссылки и ответ. Если метод случайности полезен для моделей с низким смещением и высокой дисперсией, существуют ли какие-либо методологии для работы с моделями противоположного типа: «высокий уклон, низкая дисперсия»?
Рик

Если вы используете модель с низким смещением и высокой дисперсией, такие методики, как пакетирование, могут уменьшить дисперсию при небольшом увеличении смещения. Если у вас высокое смещение, низкая дисперсия, используйте модель с более низким смещением и более высокой дисперсией - например, полиномиальную регрессию или более общие методы ядра.
Джо

10

kk

И вот почему не так привлекательно делать «случайные» вещи с линейными моделями, как с деревьями решений:

Большое дерево решений, созданное из большой выборки, с большой вероятностью может соответствовать данным, и метод случайного леса борется с этим эффектом, полагаясь на голосование множества небольших деревьев.

Линейная регрессия, с другой стороны, является моделью, которая не очень склонна к переоснащению и, таким образом, не повредит обучению ее на полной выборке в начале. И даже если у вас много переменных-регрессоров, вы можете применить другие методы, такие как регуляризация, для борьбы с переоснащением.


0

k

X1,X2,...,XnBe(p)
p1p
θ=1{p>0}
Xi=1θ=1θθ
Вяas бaграммграммяNграммзнак равнопроб(яN a бооTsTрaп saмпLе Икс(1)знак равно,,,знак равноИкс(N)знак равно0)>0,
θзнак равно1

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.