Вот классная выдержка из Jolliffe (1982), которую я не включил в свой предыдущий ответ на очень похожий вопрос: « Компоненты с низкой дисперсией в PCA, действительно ли они просто шум? Есть ли способ проверить это? » это довольно интуитивно понятно.
Предположим, что требуется прогнозировать высоту нижней границы облака , что является важной проблемой в аэропортах. Измеряются различные климатические переменные, включая температуру поверхности и росы на поверхности . Здесь - это температура, при которой воздух на поверхности будет насыщаться водяным паром, а разность - это мера поверхностной влажности. Теперь как правило, имеют положительную корреляцию, поэтому анализ главных компонентов климатических переменных будет иметь компонент с высокой дисперсией, который сильно коррелирует с , и компонент с низкой дисперсией, который аналогично коррелируется сT s T d T d T s - T d T s , T d T s + T d T s - T d H T s - T d HЧАСTsTdTdTs- ТdTs, ТdTs+ TdTs- Тd, Но связано с влажностью и , следовательно, , т.е. к низкой дисперсией , а не компонент с высокой дисперсией, так что стратегии , которая отклоняет компоненты с низким уровнем дисперсии дают плохие предсказания для . Обсуждение этого примера обязательно расплывчато из-за неизвестных эффектов любых других климатических переменных, которые также измеряются и включаются в анализ. Тем не менее, он показывает физически правдоподобный случай, когда зависимая переменная будет связана с компонентом с низкой дисперсией, подтверждая три эмпирических примера из литературы. ЧАСTs- ТdЧАС
Кроме того, пример облачной базы был протестирован на данных из аэропорта Кардиффа (Уэльс) за период 1966–73 гг. С одной дополнительной климатической переменной, включая температуру поверхности моря. Результаты были в основном такими, как предсказано выше. Последний основной компонент составлял приблизительно
, и на его долю приходилось только процента от общего отклонения. Тем не менее, в качестве основного компонента регрессии он был самым важным прогностическим фактором для . [Акцент добавлен]HTs- ТdЧАС
Три примера из литературы, упомянутой в последнем предложении второго абзаца, были тремя, которые я упомянул в своем ответе на связанный вопрос .
Ссылка
Jolliffe, IT (1982). Обратите внимание на использование основных компонентов в регрессии. Прикладная статистика, 31 (3), 300–303. Получено с http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .