Случайный лес не может переодеться?

Я читал литературу, которую случайные леса не могут перегонять. Хотя это звучит замечательно, кажется слишком хорошим, чтобы быть правдой. Можно ли для ВЧ переодеться?

random-forest overfitting

— screechOwl
источник

Если это может соответствовать, это может соответствовать. С точки зрения RF, подумайте о том, что происходит, если в вашем лесу недостаточно деревьев (скажем, ваш лес - это одно дерево, чтобы эффект был очевиден). Есть больше проблем, чем этот, но это наиболее очевидно.

— Марк Клазен

Я только что ответил на другой поток в RF, что он может легко переопределить, если количество предикторов велико.

— horaceT

Случайный лес может перегонять. Я уверен в этом. Обычно подразумевается, что модель не подходит, если вы используете больше деревьев.

Попробуйте, например, оценить модель со случайным лесом. Вы получите почти нулевую ошибку обучения, но ошибочную ошибку прогноза $y = log(x) + \epsilon$

— Donbeo
источник

Случайный лес принципиально уменьшает дисперсию, как он может соответствовать? Возможно, @Donbeo может быть из-за того, что модели дерева решений не очень хорошо работают при экстраполяции. Допустим, для аномальной переменной-предиктора DT может дать неправильный прогноз.

— Итачи

Одним из явных признаков переоснащения является то, что остаточная дисперсия слишком сильно уменьшается . Что же вы пытаетесь навязать своим первым замечанием?

— whuber

В компромиссе между отклонениями и отклонениями, когда мы пытаемся уменьшить отклонения, мы компенсируем отклонения. Так что если x = 80, то y = 100, а x = 81 - y = -100. Это было бы переоснащение . Разве не подходит для того, чтобы иметь высокую дисперсию. @whuber Я предположил, что переоснащение только из-за высокой дисперсии. Я не понимаю, как уменьшение остаточной дисперсии приводит к переоснащению. Не могли бы вы поделиться какой-нибудь бумагой для меня, чтобы читать дальше.

— Итачи

Это не требует никакой бумаги! Вы можете попробовать это сами. Возьмите небольшой простой двумерный набор данных, такой как и любую коллекцию соответствующих вы хотите создать. Используя наименьшие квадраты (потому что это направлено на уменьшение дисперсии невязок), ряд моделей для . Каждый шаг будет уменьшать дисперсию, пока на последнем шаге дисперсия не станет равной нулю. В какой-то момент, почти все согласятся, модели начали переписывать данные.

x_{i} = 1, 2, \dots, 10

$x_i=1,2,\ldots,10$

y_{i}

$y_i$

y = β_{0} + β_{1} x + β_{2} x^{2} + \dots + β_{k} x^{k}

$y=\beta_0+\beta_1 x+\beta_2 x^2 + \cdots + \beta_k x^k$

k = 0, 1, \dots, 9

$k=0, 1, \ldots, 9$

— whuber

@whuber Я думаю, вы упускаете из виду, что такое «уменьшение дисперсии». Случайный лес (и мешки в целом) не уменьшают дисперсию остатков, но дисперсию ваших прогнозов. Так что в вашем примере каждый шаг, о котором вы говорите, увеличивает УВЕЛИЧЕНИЕ :)

— Davide ND