(Ответ ниже просто вводит и утверждает теорему, доказанную в [0]. Прелесть этой статьи в том, что большинство аргументов приводятся в терминах базовой линейной алгебры. Чтобы ответить на этот вопрос, достаточно сформулировать основные результаты, но конечно, иди проверь первоисточник).
В любой ситуации, когда многомерный шаблон данных может быть описан эллиптическим распределением вариации , статистический вывод по определению сведется к проблеме подбора (и характеризации) вектора местоположения вариации (скажем, ) и a на симметричной определенной матрицы (скажем, ) к данным. По причинам, которые я объясняю ниже (но которые вы уже предполагаете в качестве предпосылок), часто будет более целесообразно разложить на компонент формы (матрица SPSD того же размера, что иk θ k k Σ Σ Σ σ SККθККΣΣΣ) с учетом формы контуров плотности вашего многомерного распределения и скаляра выражающего масштаб этих контуров.σS
В одномерных данных ( ), , ковариационная матрица ваших данных является скалярной, и, как будет видно из нижеследующего обсуждения, компонент формы равен 1, так что равен его масштабная составляющая всегда и никакой двусмысленности невозможна.Σ Σ Σ Σ = σ Sк = 1ΣΣΣΣ= σS
В многомерных данных возможен выбор функций масштабирования . Один из них ( ) выделяется тем, что обладает желаемым ключом. Это должно сделать его предпочтительным выбором коэффициента масштабирования в контексте эллиптических семейств.σ S = | ΣσSσS=|ΣΣ|1/k
Многие проблемы в статистике MV включают в себя оценку матрицы рассеяния, определяемой как функция (al)
симметричная, полу-положительно определенная в и удовлетворяющая:R k × kΣRk×k
A b
(0)Σ(AX+b)=AΣ(X)A⊤
(для не сингулярной матрицы и векторов ). Например, классическая оценка ковариантности удовлетворяет (0), но отнюдь не единственная.
Ab
При наличии эллиптических распределенных данных, где все контуры плотности являются эллипсами, определенными одной и той же матрицей формы, вплоть до умножения на скаляр, естественно рассмотреть нормализованные версии вида:Σ
VS=Σ/S(Σ)
где - 1-хоногенная функция, удовлетворяющая:S
( 1 )S( λ Σ) = λ S( Σ)
для всех . Тогда называется компонентом формы матрицы рассеяния (в короткой матрице формы), а называется компонентом масштаба матрицы рассеяния. Примеры многомерных задач оценки, в которых функция потерь зависит только от через компонент формы включают в себя тесты сферичности, PCA и CCA и другие.V S сг S = S 1 / 2 ( Σ ) Σ V Sλ > 0ВSσS= S1 / 2( Σ)ΣВS
Конечно, существует множество возможных масштабирующих функций, поэтому это все еще оставляет открытым вопрос о том, какой (если таковой имеется) из нескольких вариантов функции нормализации в некотором смысле является оптимальным. Например:S
- S= tr ( Σ) / к (например, тот, который был предложен @amoeba в его комментарии под вопросом ОП. См. Также [1], [2], [3])
- S=|Σ|1/k ([4], [5], [6], [7], [8])
- Σ11 (первая запись ковариационной матрицы)
- Σλ1(Σ) (первое собственное значение )Σ
Однако является единственной функцией масштабирования, для которой информационная матрица Фишера для соответствующих оценок масштаба и формы в локально асимптотически нормальных семействах является блочной диагональю (то есть масштабом). и компоненты формы задачи оценки асимптотически ортогональны) [0]. Это означает, среди прочего, что функционал масштаба является единственным выбором для которого не спецификация не приводит к потере эффективности при выполнении вывода на .S=|Σ|1/kS=|Σ|1/kSσSVS
Я не знаю какой-либо сравнительно сильной характеристики оптимальности для любого из многих возможных вариантов которые удовлетворяют (1).S
- [0] Paindaveine, D. Каноническое определение формы. Статистика и вероятностные письма, том 78, выпуск 14, 1 октября 2008 г., стр. 2240-2247. Ссылка без ссылки
- [1] Думбген Л. (1998). О М-функционале Тайлера рассеяния в большой размерности, Ann. Текущий месяц Statist. Математика 50, 471–491.
- [2] Оллила Э., Т.П. Геттманспергер и Х. Оя (2004). Аффинно-эквивариантные методы многомерного знака. Препринт, Университет Ювяскюля.
- [3] Тайлер, Д.Е. (1983). Робастные и эффективные свойства матриц рассеяния, Биометрика 70, 411–420.
- [4] Дамбген Л. и Д.Э. Тайлер (2005). О свойствах разбивки некоторых многомерных М-функционалов, сканд. J. Statist. 32, 247–264.
- [5] Халлин, М. и Д. Пайндавейн (2008). Оптимальные ранговые тесты на однородность рассеяния, Ann. Статистика., Чтобы появиться.
- [6] Salibian-Barrera, M., S. Van Aelst и G. Willems (200 6). Анализ основных компонентов на основе многомерных ММ-оценок с быстрой и надежной начальной загрузкой, Дж. Амер. Statist. Доц. 101, 1198–1211.
- [7] Taskinen S., C. Croux, A. Kankainen, E. Ollila и H. O ja (2006). Функции влияния и эффективность канонических корреляционных и векторных оценок на основе матриц рассеяния и формы, J. Multivariate Anal. 97, 359–384.
- [8] Тацуока, К.С. и Д.Э. Тайлер (2000). О единственности S-функционалов и M-функционалов при неэллиптических распределениях, Ann. Statist. 28, 1219–1243.