Один из способов проверки случайности небольшого главного компонента (ПК) состоит в том, чтобы рассматривать его как сигнал вместо шума: т. Е. Пытаться предсказать другую переменную, представляющую интерес для него. По сути это регрессия основных компонентов (ПЦР) .
В предиктивном контексте ПЦР, Lott (1973) рекомендует выбирать ПК таким образом, чтобы максимизировать ; Ганст и Мейсон (1977) фокусируются на . ПК с небольшими собственными значениями (даже самыми маленькими!) Могут улучшать предсказания (Hotelling, 1957; Massy, 1965 ; Hawkins, 1973; Hadi & Ling, 1998 ; Jackson, 1991) , и оказались очень интересными в некоторых опубликованных предсказательных приложениях ( Jolliffe). , 1982 , 2010 ) . Это включает: M S Eр2MSЕ
- Химическая инженерная модель с использованием ПК 1, 3, 4, 6, 7 и 8 из 9 ( Smith & Campbell, 1980 )
- Модель муссонов с использованием ПК 8, 2 и 10 (в порядке важности) из 10 ( Kung & Sharif, 1980 )
- Экономическая модель с использованием ПК 4 и 5 из 6 (Hill, Fomby & & Johnson, 1977)
ПК в приведенных выше примерах нумеруются в соответствии с ранжированными размерами их собственных значений. Джолифф (Jolliffe, 1982) описывает облачную модель, в которую последний компонент вносит наибольший вклад. Он делает вывод:
Приведенные выше примеры показали, что нет необходимости находить неясные или причудливые данные, чтобы последние несколько основных компонентов играли важную роль в регрессии главных компонентов. Скорее кажется, что такие примеры могут быть довольно распространенными на практике. Hill et al. (1977) дают подробное и полезное обсуждение стратегий выбора основных компонентов, которые должны были навсегда похоронить идею выбора, основанную исключительно на величине дисперсии. К сожалению, этого, похоже, не произошло, и эта идея сейчас, возможно, более распространена, чем 20 лет назад.
SS
( р - 1 )Y
Икс
Я обязан этим ответом @Scortchi, который исправил мои собственные неправильные представления о выборе ПК в PCR с помощью нескольких очень полезных комментариев, в том числе: « Jolliffe (2010) рассматривает другие способы выбора ПК». Эта ссылка может быть хорошим местом для поиска дальнейших идей.
Ссылки
- Gunst, RF & Mason, RL (1977). Смещенная оценка в регрессии: оценка с использованием среднеквадратической ошибки. Журнал Американской статистической ассоциации, 72 (359), 616–628.
- Хади А.С. и Лин, РФ (1998). Некоторые предостерегающие замечания по использованию регрессии основных компонентов. Американский статистик, 52 (1), 15–19. Получено с http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .
Хокинс Д.М. (1973). Об исследовании альтернативных регрессий методом главных компонент. Прикладная статистика, 22 (3), 275–286.
- Hill, RC, Fomby, TB, & Johnson, SR (1977). Нормы выбора компонентов для регрессии главных компонентов.Сообщения в статистике - теория и методика, 6 (4), 309–334.
- Хотеллинг, Х. (1957). Связь новейших многомерных статистических методов с факторным анализом. Британский журнал статистической психологии, 10 (2), 69–79.
- Джексон Э. (1991). Руководство пользователя по основным компонентам . Нью-Йорк: Уайли.
- Jolliffe, IT (1982). Обратите внимание на использование основных компонентов в регрессии. Прикладная статистика, 31 (3), 300–303. Получено с http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
- Jolliffe, IT (2010).Анализ основных компонентов (2-е изд.). Springer.
- Kung EC и Sharif TA (1980). Регрессионное прогнозирование наступления бабьего летнего муссона с предшествующими верхними воздушными условиями. Журнал прикладной метеорологии, 19 (4), 370–380. Получено с http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .
- Лотт, WF (1973). Оптимальный набор ограничений главных компонент на регрессию наименьших квадратов. Сообщения в статистике - теория и методика, 2 (5), 449–464.
- Мейсон Р.Л. и Ганст Р.Ф. (1985). Выбор основных компонентов в регрессии. Статистика и вероятностные письма, 3 (6), 299–301.
- Massy, WF (1965). Основные компоненты регрессии в поисковых статистических исследованиях. Журнал Американской статистической ассоциации, 60 (309), 234–256. Получено с http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .
- Smith, G. & Campbell, F. (1980). Критика некоторых методов регрессии гребня. Журнал Американской статистической ассоциации, 75 (369), 74–81. Получено с https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .