Учет мультиколлинеария важен в регрессионном анализе, потому что в экстремумах он напрямую зависит от того, идентифицированы ли ваши коэффициенты уникально в данных. В менее серьезных случаях он все еще может испортить ваши оценки коэффициентов; небольшие изменения в данных, используемых для оценки, могут вызвать резкие колебания в оценочных коэффициентах. Это может быть проблематично с точки зрения логического вывода: если две переменные сильно коррелированы, увеличение одной переменной может быть компенсировано уменьшением другой, поэтому комбинированный эффект сводит на нет друг друга. С более чем двумя переменными эффект может быть еще более тонким, но если прогнозы стабильны, этого часто достаточно для приложений машинного обучения.
Подумайте, почему мы регуляризируем в контексте регрессии: нам нужно ограничить модель от чрезмерной гибкости. Применение правильного количества регуляризации немного увеличит смещение для большего уменьшения дисперсии. Классическим примером этого является добавление полиномиальных членов и эффектов взаимодействия к регрессии: в вырожденном случае уравнение прогнозирования будет интерполировать точки данных, но, вероятно, будет ужасно при попытке предсказать значения невидимых точек данных. Сокращение этих коэффициентов, вероятно, сведет к минимуму или полностью устранит некоторые из этих коэффициентов и улучшит обобщение.
Однако можно заметить, что случайный лес имеет параметр регуляризации по числу переменных, выбранных при каждом разделении: чем лучше разделение, тем больше mtry
(больше возможностей для выбора; некоторые из них лучше других), но это также делает каждое дерево более тесно коррелированным с другим деревом, что несколько смягчает диверсифицирующий эффект оценки множества деревьев в первую очередь. Эта дилемма заставляет искать правильный баланс, обычно достигаемый с помощью перекрестной проверки. Важно отметить, что, в отличие от регрессионного анализа, никакая часть модели случайного леса не подвергается воздействию коллинеарных переменных: даже если две переменные обеспечивают одинаковую чистоту дочернего узла, вы можете выбрать одну из них, не ухудшая качество результата.
Аналогично, для чего-то вроде SVM вы можете включить больше предикторов, чем функций, потому что уловка ядра позволяет вам работать исключительно с внутренним произведением этих векторов функций. Наличие большего количества возможностей, чем наблюдений, было бы проблемой в регрессиях, но хитрость ядра означает, что мы оцениваем коэффициент только для каждого образца, в то время как параметр регуляризации снижает гибкость решения - что, безусловно, хорошо, так как оценка параметров дляCNNнеограниченные наблюдения всегда будут давать идеальную модель на тестовых данных - и мы возвращаемся к полному кругу, возвращаясь к сценарию регрессии гребня / LASSO / эластичной сети, в котором гибкость модели ограничена как проверка чрезмерно оптимистичной модели. Обзор условий KKT проблемы SVM показывает, что решение SVM уникально, поэтому нам не нужно беспокоиться о проблемах идентификации, возникших в случае регрессии.
Наконец, рассмотрим фактическое влияние мультиколлинеарности. Это не меняет прогнозирующую способность модели (по крайней мере, на данных обучения), но вредит нашим оценкам коэффициентов. В большинстве приложений ML мы не заботимся о самих коэффициентахпросто потеря наших модельных прогнозов, поэтому в этом смысле проверка VIF на самом деле не отвечает на дополнительный вопрос. (Но если небольшое изменение в данных вызывает огромные колебания в коэффициентах [классический признак мультиколлинеарности], это также может изменить прогнозы, и в этом случае нам все равно - но все это [мы надеемся!] Характерно, когда мы выполнить перекрестную проверку, которая в любом случае является частью процесса моделирования.) Регрессия легче интерпретируется, но интерпретация может быть не самой важной целью для некоторых задач.