Какова лучшая стратегия в множественной линейной регрессии с высококоррелированными регрессорами? Это законный подход, чтобы добавить произведение всех коррелированных регрессоров?
Какова лучшая стратегия в множественной линейной регрессии с высококоррелированными регрессорами? Это законный подход, чтобы добавить произведение всех коррелированных регрессоров?
Ответы:
Основные компоненты имеют большой смысл ... математически. Тем не менее, я бы с осторожностью использовал простой математический трюк в этом случае и надеялся, что мне не нужно думать о своей проблеме.
Я бы посоветовал немного подумать о том, какие у меня есть предикторы, что такое независимая переменная, почему мои предикторы коррелируют, действительно ли некоторые из моих предикторов измеряют одну и ту же базовую реальность (если так, могу ли я просто работать с одно измерение и какой из моих предикторов будет лучше для этого), для чего я делаю анализ - если я не заинтересован в умозаключении, только в предсказании, тогда я мог бы на самом деле оставить все как есть, пока будущее Значения предикторов аналогичны прошлым.
Вы можете использовать основные компоненты или регрессию гребня для решения этой проблемы. С другой стороны, если у вас есть две переменные, которые достаточно сильно коррелированы, чтобы вызвать проблемы с оценкой параметров, то вы почти наверняка можете отбросить любую из двух, не теряя много с точки зрения прогнозирования - потому что две переменные несут одинаковую информацию , Конечно, это работает только тогда, когда проблема связана с двумя сильно коррелированными независимыми лицами. Когда проблема включает в себя более двух переменных, которые вместе почти коллинеарны (любые две из которых могут иметь только умеренную корреляцию), вам, вероятно, понадобится один из других методов.
Вот еще одна мысль, которая вдохновлена ответом Стефана :
Если некоторые из ваших коррелированных регрессоров значимо связаны (например, они представляют собой разные показатели интеллекта, например, словесные, математические и т. Д.), То вы можете создать одну переменную, которая измеряет одну и ту же переменную, используя один из следующих методов:
Суммируйте регрессоры (уместно, если регрессоры являются компонентами целого, например, словесный IQ + математический IQ = общий IQ)
Среднее значение регрессоров (подходит, если регрессоры измеряют одну и ту же базовую конструкцию, например, размер левого башмака, размер правого башмака для измерения длины ног)
Факторный анализ (для учета ошибок в измерениях и для выявления скрытого фактора)
Затем вы можете отбросить все коррелированные регрессоры и заменить их одной переменной, которая получается из приведенного выше анализа.
Я собирался сказать то же самое, что и Стефан Коласса выше (так что я проголосовал за его ответ). Я бы только добавил, что иногда мультиколлинеарность может быть связана с использованием обширных переменных, которые все сильно коррелируют с некоторой мерой размера, и вещи могут быть улучшены с помощью интенсивных переменных, то есть деления всего на некоторую меру размера. Например, если ваши единицы - это страны, вы можете разделить их по населению, области или ВНП, в зависимости от контекста.
Да, и чтобы ответить на вторую часть исходного вопроса: я не могу придумать ни одной ситуации, когда было бы неплохо добавить произведение всех коррелированных регрессоров. Как это поможет? Что бы это значило?
Я не эксперт в этом, но моей первой мыслью было бы провести анализ главных компонентов на переменных предиктора, а затем использовать полученные главные компоненты для прогнозирования вашей зависимой переменной.
Это не лекарство, а определенно шаг в правильном направлении.