Запутался в визуальном объяснении собственных векторов: как визуально разные наборы данных могут иметь одинаковые собственные векторы?

Многие учебники статистики предоставляют интуитивно понятную иллюстрацию того, каковы собственные векторы ковариационной матрицы:

введите описание изображения здесь

Векторы u и z образуют собственные векторы (ну, собственные оси). Это имеет смысл. Но меня смущает то, что мы извлекаем собственные векторы из корреляционной матрицы, а не необработанные данные. Кроме того, исходные наборы данных, которые весьма различны, могут иметь идентичные матрицы корреляции. Например, следующие оба имеют корреляционные матрицы:

[\begin{matrix} 1 & 0.97 \\ 0.97 & 1 \end{matrix}]

$\left[\begin{array}{} 1 & 0.97 \\ 0.97 &1\end{array}\right]$

Собственные

Как таковые, они имеют собственные векторы, указывающие в одном направлении:

[\begin{matrix} .71 & - .71 \\ .71 & .71 \end{matrix}]

$\left[\begin{array}{} .71 & -.71 \\ .71 & .71\end{array}\right]$

Но если бы вы применили ту же визуальную интерпретацию того, какие направления были у собственных векторов в необработанных данных, вы бы получили векторы, указывающие в разных направлениях.

Может кто-нибудь сказать, пожалуйста, где я ошибся?

Второе редактирование : если я могу быть настолько смелым, с превосходными ответами ниже, я смог понять путаницу и проиллюстрировал ее.

Визуальное объяснение согласуется с тем фактом, что собственные векторы, извлеченные из ковариационной матрицы, различны.

Ковариации и собственные векторы (красный):

$[\begin{matrix} 1 & 1 \\ 1 & 1 \end{matrix}] [\begin{matrix} .7 & - .72 \\ .72 & .7 \end{matrix}]$ $\left[\begin{array}{} 1 & 1 \\ 1 & 1\end{array}\right] \left[\begin{array}{} .7 & -.72 \\ .72 & .7\end{array}\right]$
Ковариации и собственные векторы (синий):

$[\begin{matrix} .25 & .5 \\ .5 & 1 \end{matrix}] [\begin{matrix} .43 & - .9 \\ .9 & .43 \end{matrix}]$ $\left[\begin{array}{} .25 & .5 \\ .5 & 1\end{array}\right] \left[\begin{array}{} .43 & -.9 \\ .9 & .43\end{array}\right]$
Матрицы корреляции отражают ковариационные матрицы стандартизированных переменных. Визуальная проверка стандартизированных переменных демонстрирует, почему идентичные собственные векторы извлекаются в моем примере:

введите описание изображения здесь

— Сью Дох Нимх
источник

Если вы хотите оценить корреляцию , то вы должны нарисовать свои диаграммы рассеяния со шкалами, в которых стандартные отклонения компонентов равны. Это не относится ни к одному из ваших изображений (за исключением, возможно, красных точек на втором изображении), что может быть одной из причин, по которым вас это смущает.

— whuber

Я ценю, что вы проиллюстрировали свой вопрос. Это помогает людям понять это и увеличивает ценность темы для дальнейшего использования. Имейте в виду, однако, что ~ 10% мужчин являются красно-зелеными дальтониками. С 2 цветами красный и синий может быть безопаснее.

— gung - Восстановить Монику

Большое спасибо, я исправил цвета, как вы предложили

— Сью Дох Ним

Нет проблем, @SueDohNimh. Спасибо, что сделали это понятным для всех. С другой стороны, я бы сохранил [PCA]тег. Если вы хотите перефокусировать вопрос, или задать новый (связанный) вопрос и ссылку на этот вопрос, это кажется хорошим, но я думаю, что этот вопрос достаточно PCA, чтобы заслужить метку.

— gung - Восстановить Монику

Хорошая работа, @SueDohNimh. Вы также можете добавить это как ответ на свой вопрос вместо редактирования, если хотите.

— gung - Восстановить Монику

Вы не должны делать PCA по матрице корреляции; Вы также можете разложить ковариационную матрицу. Обратите внимание, что они обычно дают разные решения. (Подробнее об этом см .: PCA по корреляции или ковариации? )

На втором рисунке корреляции одинаковы, но группы выглядят по-разному. Они выглядят по-разному, потому что у них разные ковариации. Тем не менее, отклонения также различны (например, красная группа варьируется в более широком диапазоне X1), и корреляция представляет собой ковариацию, деленную на стандартные отклонения ( ). В результате корреляции могут быть одинаковыми. ${\rm Cov}_{xy} / {\rm SD}_x{\rm SD}_y$

Опять же, если вы выполните PCA с этими группами, используя ковариационные матрицы, вы получите другой результат, чем если бы вы использовали корреляционные матрицы.

— Gung - Восстановить Монику
источник

+1 Вы, вероятно, также заметили, что с двумя переменными корреляционная матрица всегда имеет одинаковые два собственных вектора, и , независимо от того, какое значение имеет корреляция.

(1, 1)

$(1,1)$

(1, - 1)

$(1,-1)$

— whuber

+1 к тому, что написал @whuber, но учтите, что соответствующие собственные значения зависят от значения корреляции.

— амеба

Это правда, но собственные векторы матрицы Ков могут варьироваться в зависимости от корреляции.

— gung - Восстановить Монику

Привет, ребята, большое спасибо. Я знал, что различные собственные векторы возникают из-за использования ковариационных матриц; это стало еще одним источником беспокойства, поскольку я заставил меня беспокоиться о том, что, используя вместо этого матрицы корреляции, я сокращал используемую информацию и, следовательно, был менее точным. Разумно ли на основании ваших ответов сделать вывод о том, что представленная визуальная интерпретация действительно применима только к собственным векторам ковариационной матрицы необработанных данных, а не к матрице корреляции?

— Сью Дох Ним

Не совсем, @SueDohNimh. Вы можете использовать визуальную интерпретацию, просто сначала стандартизируйте свои переменные, если вы хотите использовать матрицу корреляции.

— gung - Восстановить Монику