Нужен ли случайный лес масштабируемым или центрированным входным переменным?


16

Мои входные переменные имеют разные размеры. Некоторые переменные являются десятичными, а некоторые - сотнями. Необходимо ли центрировать (вычитать среднее) или масштабировать (делить на стандартное отклонение) эти входные переменные, чтобы сделать данные безразмерными при использовании случайного леса?

Ответы:


29

Нет.

Случайные леса основаны на алгоритмах разбиения деревьев.

Таким образом, в общих стратегиях регрессии не существует аналога коэффициента, который можно получить, который будет зависеть от единиц независимых переменных. Вместо этого можно получить набор правил разбиения, в основном это решение с заданным порогом, и это не должно меняться при масштабировании. Другими словами, деревья видят только ранги в функциях.

По сути, любое монотонное преобразование ваших данных вообще не должно изменять лес (в самых распространенных реализациях).

Кроме того, деревья решений обычно устойчивы к числовой нестабильности, которая иногда ухудшает сходимость и точность в других алгоритмах.


0

В целом я согласен с Firebug, но может быть некоторая ценность в стандартизации ваших переменных, если вы заинтересованы в показателях важности предикторов. RF будет иметь тенденцию отдавать предпочтение непрерывным предикторам с высокой вариабельностью, поскольку существует больше возможностей для разделения данных. Однако лучшим способом решения этой проблемы является использование конкретных подходов (то есть выборки без замены с использованием условных лесов), которые более устойчивы к этому смещению. См. Https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25.


1
Добро пожаловать на сайт. Мы пытаемся создать постоянное хранилище высококачественной статистической информации в форме вопросов и ответов. Таким образом, мы опасаемся ответов, содержащих только ссылки, из-за linkrot. Можете ли вы опубликовать полную ссылку и краткое изложение информации по ссылке, если она не работает?
gung - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.