В настоящее время я использую анализ основных компонентов, чтобы выбрать переменные для моделирования. В настоящий момент я делаю измерения A, B и C в своих экспериментах. Что я действительно хочу знать: могу ли я сделать меньше измерений и прекратить запись C и / B, чтобы сэкономить время и усилия?
Я обнаружил, что все 3 переменные сильно загружены в мой первый основной компонент, который составляет 60% дисперсии в моих данных. Оценки компонентов говорят мне, что если я добавлю эти переменные вместе в определенном соотношении (aA + bB + cC). Я могу получить оценку на ПК1 для каждого случая в моем наборе данных и могу использовать эту оценку как переменную в моделировании, но это не позволяет мне прекратить измерять В и С.
Если я возведу в квадрат нагрузки A, B и C на ПК1, я обнаружу, что переменная A составляет 65% дисперсии в PC1, а переменная B - 50% дисперсии в PC1, а переменная C также составляет 50%, т.е. дисперсии в PC1, приходящейся на каждую переменную A, B и C делится с другой переменной, но A выходит на первое место с учетом чуть большего.
Неправильно ли думать, что я мог бы просто выбрать переменную A или, возможно, (aA + bB, если необходимо) для использования в моделировании, потому что эта переменная описывает большую долю дисперсии в PC1, а это, в свою очередь, описывает большую долю дисперсии в данные?
Какой подход вы использовали в прошлом?
- Единственная переменная, которая наиболее сильно загружается на ПК1, даже если есть другие тяжелые загрузчики?
- Оценка компонентов на ПК1 с использованием всех переменных, даже если они являются тяжелыми загрузчиками?