Стоит ли беспокоиться о мультиколлинеарности при использовании нелинейных моделей?


13

Скажем, у нас есть проблема бинарной классификации с в основном категориальными особенностями. Мы используем некоторую нелинейную модель (например, XGBoost или Случайные Леса), чтобы изучить ее.

  • Стоит ли еще беспокоиться о мультиколлинеарности? Почему?
  • Если ответ на вышеприведенный ответ верен, как с этим бороться, учитывая, что используются нелинейные модели этих типов?

Ответы:


7

Мультиколлинеарность не будет проблемой для определенных моделей. Например, случайный лес или дерево решений. Например, если у нас есть два одинаковых столбца, дерево решений / случайный лес автоматически «отбрасывает» один столбец при каждом разделении. И модель все равно будет хорошо работать.

Кроме того, регуляризация - это способ «исправить» проблему мультиколлинеарности. Мой ответ Методы регуляризации для логистической регрессии дают подробности.


5
Я думаю, что это было бы лучше, если бы вы уточнили, в чем именно заключается проблема, которую «исправляет» регуляризация.
Мэтью Друри

2

Опоздал на вечеринку, но в любом случае вот мой ответ, и это «Да», всегда следует беспокоиться о коллинеарности, независимо от того, является ли модель / метод линейным или нет, или основной задачей является прогноз или классификация.

Предположим, что в качестве метода используется ряд линейно коррелированных ковариат / признаков, присутствующих в наборе данных, и случайный лес. Очевидно, что при случайном выборе на узел могут быть выбраны только (или в основном) коллинеарные элементы, которые могут / будут приводить к плохому расщеплению, и это может происходить многократно, что негативно влияет на производительность.

Теперь коллинеарные элементы могут быть менее информативными в отношении результата, чем другие (неколлинеарные) элементы, и поэтому их следует учитывать для исключения из набора функций в любом случае. Тем не менее, предположим, что функции ранжируются высоко в списке «Важность функций», составленном RF. Как таковые они будут храниться в наборе данных, без необходимости увеличивая размерность. Таким образом, на практике, я всегда, в качестве исследовательского шага (из многих связанных) проверяю парную связь признаков, включая линейную корреляцию.


Я считаю, что есть случаи, когда мультиколлинеарность можно безопасно игнорировать, некоторые из этих случаев обсуждаются здесь: statisticshorizons.com/multicollinearity
Dr Nisha Arora

0
  1. Стоит ли еще беспокоиться о мультиколлинеарности? Почему?

Если нелинейная модель является древовидной моделью, то не стоит считать ее серьезной. Разные модели дерева будут иметь разный метод сделки, например, случайный лес сохранит их обоих (потому что они строят дерево независимо, и случайный выбор объекта для каждого дерева), но это не влияет на эффективность прогнозирования, даже если вы удалите избыточный. Но для xgboost он выберет любого из них и будет использовать его до последнего построения дерева.

  1. Если ответ на вышеприведенный ответ верен, как с этим бороться, учитывая, что используются нелинейные модели этих типов?

Речь идет о значении интерпретации, поэтому предлагается исключить высококорреляционную переменную.


-3

Мультиколлинеарность всегда является возможной проблемой. Переменные, которые являются предикторами в модели, будут влиять на прогноз, когда они линейно связаны (то есть, когда присутствует коллинеарность).


1
Спасибо, если (1) основное внимание уделяется эффективности прогнозирования (а не интерпретируемости) и (2) модель нелинейная, не могли бы вы уточнить, почему это все еще может быть проблемой? (и как именно это проявится?)
Джош

Эти переменные, которые являются предикторами в модели, будут влиять на прогноз, когда они линейно связаны (т.е. присутствует коллинеарность).
Майкл Р. Черник,

1
Повлиять на прогноз, как именно? Кстати, stats.stackexchange.com/a/138082/99274 , вставьте несколько ссылок в свой ответ или столкнитесь с гневом толпы «был там, сделал это».
Карл

7
Поскольку классификация так тесно связана с предсказанием, а предсказание, как правило, не страдает от мультиколлинеарности, важно поддержать ваше утверждение, что это всегда «возможная проблема», особенно для конкретных моделей, упомянутых в вопросе. Какая проблема будет для классификации и почему?
whuber

12
Я уверен, что вы задаете вопрос. Уубер спросил, почему предсказание страдает от мультиколлинеарности, а вы в основном ответили: «Предсказание страдает от мультиколлинеарности, потому что предсказание страдает от мультиколлинеарности».
Мэтью Друри
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.