Существует ли интуитивная интерпретация для матрицы данных ?


107

Для данной матрицы данных (с переменными в столбцах и точками данных в строках) кажется, что играет важную роль в статистике. Например, это важная часть аналитического решения обычных наименьших квадратов. Или, для PCA, его собственные векторы являются основными компонентами данных.AATA

Я понимаю, как рассчитать , но мне было интересно, есть ли интуитивная интерпретация того, что представляет эта матрица, что приводит к ее важной роли?ATA


2
Некоторая интуиция может быть предоставлена ​​анализом по адресу stats.stackexchange.com/a/66295/919 .
whuber

Ответы:


125

Геометрически матрица называется матрицей скалярных произведений (= точечные произведения, = внутренние произведения). Алгебраически это называется матрицей суммы квадратов и кросс-произведений ( SSCP ).AA

Его диагональный элемент равен , где обозначает значения в столбце а - сумма по строкам. -го недиагональных элемента в ней есть .ia(i)2a(i)iAija(i)a(j)

Существует ряд важных коэффициентов ассоциации, и их квадратные матрицы называются угловыми сходствами или подобиями типа SSCP:

  • Разделив матрицу SSCP на , размер выборки или количество строк , вы получите матрицу MSCP (среднеквадратичное и перекрестное произведение). Следовательно, попарной формулой этой меры ассоциации является (векторы и представляют собой пару столбцов из ).nAxynxyA

  • Если вы центрируете столбцы (переменные) в , то - это матрица рассеяния (или совместного рассеяния, если быть строгой), а - ковариация матрица. Попарная формула ковариации имеет вид где и обозначают центрированные столбцы.AAAAA/(n1)cxcyn1cxcy

  • Если вы z- стандартизируете столбцы (вычтите среднее значение столбца и поделите на стандартное отклонение), то - это корреляционная матрица Пирсона : корреляция - это ковариация для стандартизированных переменных. Попарная формула корреляции: где и обозначают стандартизированные столбцы. Корреляция также называется коэффициентом линейности.AAA/(n1)zxzyn1zxzy

  • Если вы масштабируете столбцы (приводите их SS, сумму квадратов к 1), то - это матрица сходства косинусов . Таким образом, эквивалентная попарная формула выглядит так: с и обозначающими L2-нормализованные столбцы , Косинусное сходство также называют коэффициентом пропорциональности.AAAuxuy=xyx2y2uxuy

  • Если центр , а затем Unit- масштаб столбцы , то снова Пирсон Корреляция матрица, так как корреляция косинус для центрированных переменных :AAA1,2cuxcuy=cxcycx2cy2

Наряду с этими четырьмя основными мерами ассоциации, давайте также упомянем некоторые другие, также основанные на , чтобы его. Их можно рассматривать как меры, альтернативные косинусному подобию, поскольку они принимают отличную от него нормировку, знаменатель в формуле:AA

  • Коэффициент идентичности [Zegers & ten Berge, 1985] имеет свой знаменатель в виде среднего арифметического, а не среднего геометрического: . Это может быть 1, если и только если сравниваемые столбцы идентичны.xy(x2+y2)/2A

  • Другой используемый коэффициент, называемый коэффициентом сходства : .xyx2+y2xy=xyxy+(xy)2

  • Наконец, если значения в неотрицательны и их сумма в столбцах равна 1 (например, они являются пропорциями), то - это матрица верности или коэффициент Бхаттачария .AAA


1 Один способ также вычислить корреляционную или ковариационную матрицу, используемую многими статистическими пакетами, обходит центрирование данных и отправляется прямо из матрицы SSCP таким образом. Пусть будет вектором строк суммы столбцов данных а является количеством строк в данных. Затем (1) вычислите матрицу рассеяния как [отсюда, будет ковариационной матрицей]; (2) диагональ - это суммы квадратов отклонений, вектор строки ; (3) вычислить корреляционную матрицу .AAsAnC=AAss/nC/(n1)CdR=C/dd

2 Острый, но статистически начинающий читатель может столкнуться с трудностями примирения двух определений корреляции - как «ковариации» (которая включает в себя усреднение по размеру выборки, деление на df = «n-1») и как «косинус» (что подразумевает нет такого усреднения). Но на самом деле никакого реального усреднения в первой формуле корреляции не происходит. Дело в том, что ул. отклонение, с помощью которого была достигнута z-стандартизация, в свою очередь вычислялось с делением на ту же самую df ; и поэтому знаменатель «n-1» в формуле корреляция-как-ковариация полностью отменяется, если развернуть формулу: формула превращается в формулу косинуса . Для вычисления эмпирического значения корреляции вам действительно нужно не знатьn (кроме случаев вычисления среднего значения по центру).


42

Матрица содержит все скалярные произведения всех столбцов в . Таким образом, диагональ содержит квадраты норм столбцов. Если вы думаете о геометрии и ортогональных проекциях на пространство столбцов, охватываемых столбцами в вы можете вспомнить, что нормы и внутренние произведения векторов, охватывающих это пространство, играют центральную роль в вычислении проекции. Регрессия наименьших квадратов, а также главные компоненты могут быть поняты в терминах ортогональных проекций.ATAAA

Также отметим, что если столбцы ортонормированы, тем самым образуя ортонормированный базис для пространства столбцов, то единичная матрица.AATA=I


39

@NRH дал хороший технический ответ.

Если вы хотите что-то действительно простое, вы можете думать о как о матричном эквиваленте для скаляра.ATAA2


5
Хотя другие ответы более «технически» правильны, это наиболее интуитивный ответ.
CatsLoveJazz

3

Важный взгляд на геометрию заключается в следующем (точка зрения, сильно подчеркнутая в книге Странга «Линейная алгебра и ее приложения»): Предположим, что A является -матрицей ранга k, представляющей линейное отображение . Пусть Col (А) и строки (А) столбцы и строки пространство . затемAAm×nA:RnRmA

(a) В качестве вещественной симметричной матрицы имеет базис собственных векторов с ненулевыми собственными значениями , Таким образом:(AA):RnRn{e1,...,en}d1,,dk

(AA)(x1e1++xnen)=d1x1e1+...+dkxkek .

(б) Диапазон (A) = Col (A), по определению Col (A). Таким образом, A | Row (A) отображает строку (A) в Col (A).

(c) Ядро (A) является ортогональным дополнением строки (A). Это связано с тем, что умножение матриц определяется в терминах точечных произведений (строка i) * (col j). (Таким образом,Av=0v is in Kernel(A)vis in orthogonal complement of Row(A)

(d) и является изоморфизмом ,A(Rn)=A(Row(A))A|Row(A):Row(A)Col(A)

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[Между прочим, дает доказательство того, что ранг строки = ранг столбца!]

(e) Применение (d), является изоморфизмомA|:Col(A)=Row(A)Col(A')=Row(A)

(f) В силу (d) и (e): и A'A отображает Row (A) изоморфно в Row (A).AA(Rn)=Row(A)


2
Вы можете заключить формулу в $ и $, чтобы получить . LATEX
Плацидия

2

Хотя уже обсуждалось, что имеет смысл брать точечные произведения, я бы добавил только графическое представление этого умножения.ATA

Действительно, в то время как строки матрицы (и столбцы матрицы ) представляют переменные, мы рассматриваем каждую переменную измерения как многомерный вектор. Умножение строки в на столбец в эквивалентно взятию точечного произведения двух векторов: - результатом является запись в позиции внутри матрицы .ATArowpATcolpAdot(rowp,colp)(p,p)ATA

Аналогично, умножение строки из на столбец из эквивалентно произведению точки: с результатом в позиции .pATkAdot(rowp,colk)(p,k)

Запись результирующей матрицы имеет значение того, насколько вектор находится в направлении вектора . Если скалярное произведение двух векторов и отличен от нуля, некоторые сведения о векторной будет осуществляться вектором , и наоборот.(p,k)ATArowpcolkrowicoljrowicolj

Эта идея играет важную роль в анализе главных компонентов, где мы хотим найти новое представление нашей исходной матрицы данных , чтобы больше не было никакой информации о любом столбце в любом другом столбце , Изучая PCA глубже, вы увидите, что вычисляется «новая версия» ковариационной матрицы, и она становится диагональной матрицей, которую я оставляю вам, чтобы понять, что ... на самом деле это означает то, что я выразил в предыдущем предложении.Aiji

введите описание изображения здесь


1

Есть уровни интуиции. Для тех, кто знаком с матрицей матричной нотации, интуиция должна думать о ней как о квадрате случайной величины: противxE[x2]AATA

В матричной записи выборка случайной величины наблюдений или совокупности представлена ​​вектором столбцов:xxi

a=[x1x2xn]

Итак, если вы хотите получить примерное среднее квадрата переменной , вы просто получите скалярное произведение , которое в матричной записи совпадает с .x

x2¯=aan
ATA

Обратите внимание, что если выборочное среднее значение переменной равно нулю, то дисперсия равна среднему значению квадрата: что аналогично . Это причина, почему в PCA вам нужно нулевое среднее, и почему появляется после того, как все PCA должны разложить матрицу отклонений набора данных.σ2=E[x2]ATAATA

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.