В моем понимании, сильно коррелированные переменные не будут вызывать проблемы мультиколлинеарности в модели случайного леса (пожалуйста, исправьте меня, если я ошибаюсь). Однако, с другой стороны, если у меня будет слишком много переменных, содержащих аналогичную информацию, будет ли модель слишком весить для этого набора, а не для других?
Например, есть два набора информации (A, B) с одинаковой предсказательной силой. Все переменные , , ... содержат информацию A, и только Y содержит информацию B. При случайных переменных выборки большая часть деревьев будет расти на информации A, и в результате информация B будет получена не полностью ?
multicollinearity
что НЕТ влияния на модель случайного леса. Например, здесь , в ответе, получившем наибольшее количество голосов, говорится, что «никакая часть модели случайного леса не подвергается воздействию коллинеарных переменных». Имеет ли это какое-либо значение?