Как использовать анализ главных компонентов для выбора переменных для регрессии?

12

В настоящее время я использую анализ основных компонентов, чтобы выбрать переменные для моделирования. В настоящий момент я делаю измерения A, B и C в своих экспериментах. Что я действительно хочу знать: могу ли я сделать меньше измерений и прекратить запись C и / B, чтобы сэкономить время и усилия?

Я обнаружил, что все 3 переменные сильно загружены в мой первый основной компонент, который составляет 60% дисперсии в моих данных. Оценки компонентов говорят мне, что если я добавлю эти переменные вместе в определенном соотношении (aA + bB + cC). Я могу получить оценку на ПК1 для каждого случая в моем наборе данных и могу использовать эту оценку как переменную в моделировании, но это не позволяет мне прекратить измерять В и С.

Если я возведу в квадрат нагрузки A, B и C на ПК1, я обнаружу, что переменная A составляет 65% дисперсии в PC1, а переменная B - 50% дисперсии в PC1, а переменная C также составляет 50%, т.е. дисперсии в PC1, приходящейся на каждую переменную A, B и C делится с другой переменной, но A выходит на первое место с учетом чуть большего.

Неправильно ли думать, что я мог бы просто выбрать переменную A или, возможно, (aA + bB, если необходимо) для использования в моделировании, потому что эта переменная описывает большую долю дисперсии в PC1, а это, в свою очередь, описывает большую долю дисперсии в данные?

Какой подход вы использовали в прошлом?

Единственная переменная, которая наиболее сильно загружается на ПК1, даже если есть другие тяжелые загрузчики?
Оценка компонентов на ПК1 с использованием всех переменных, даже если они являются тяжелыми загрузчиками?

regression pca model-selection

— N26
источник

14

Вы не указали, какое «моделирование» вы планируете, но звучит так, будто вы спрашиваете, как выбрать независимые переменные среди , и с целью (скажем) регрессии четвертой зависимой переменной на них. $A$ $B$ $C$ $W$

Чтобы увидеть, что этот подход может пойти не так, рассмотрим три независимые нормально распределенные переменные , и с единичной дисперсией. Для истинной базовой модели выберите небольшую константу , действительно крошечную константу , и пусть (зависимая переменная) (плюс небольшая ошибка, независимая от , , и ). $X$ $Y$ $Z$ $\beta \ll 1$ $\epsilon \ll \beta$ $W = Z$ $X$ $Y$ $Z$

Предположим , что независимые переменные , которые имеют в , и . Тогда и сильно коррелированы ( в зависимости от дисперсии ошибки), потому что каждый из них близка к кратной . Тем не менее, некоррелировано с любым из или . Поскольку мала, первый главный компонент для параллелен с собственным значением . и сильно нагружают этот компонент и $A = X + \epsilon Y$ $B = X - \epsilon Y$ $C = \beta Z$ $W$ $C$ $Z$ $W$ $A$ $B$ $\beta$ $\{A, B, C\}$ $X$ $2 \gg \beta$ $A$ $B$ $C$ загружается совсем не потому, что не зависит от (и ). Тем не менее, если вы исключите из независимых переменных, оставив только и , вы выбросите всю информацию о зависимой переменной, потому что , и независимы! $X$ $Y$ $C$ $A$ $B$ $W$ $A$ $B$

Этот пример показывает, что для регрессии вы хотите обратить внимание на то, как независимые переменные коррелируют с зависимой; Вы не можете уйти, просто анализируя отношения между независимыми переменными.

— Whuber
источник

1

должно ли это быть не ?

A = X + ϵ Y

$A = X + \epsilon Y$

Z + ϵ Y

$Z + \epsilon Y$

— Шаббычеф

@shabby Да, спасибо. (Мне пришлось изменить все имена переменных в черновике, чтобы они совпадали с именами OP, и испортил это.)

— whuber

4

Если у вас есть только 3 IV, почему вы хотите уменьшить их?

То есть, ваша выборка очень мала (так что 3 IVs рискуют перенастроить)? В этом случае рассмотрим частичные наименьшие квадраты

Или измерения очень дорогие (так что в будущем вы хотели бы измерить только один IV)? В этом случае я хотел бы рассмотреть различные регрессии с каждым IV отдельно и вместе.

Или кто-то в вашем прошлом переоценил ценность скупости? В этом случае, почему бы не включить все 3 IV?

— Питер Флом - Восстановить Монику
источник