В чем разница между анализом главных компонентов и многомерным масштабированием?

133

Чем отличаются PCA и классический MDS? Как насчет МДС и неметрических МДС? Есть ли время, когда вы бы предпочли одно над другим? Чем отличаются интерпретации?

pca multidimensional-scaling pcoa

— Стивен Тернер
источник

96

Метрическая MDS классического Торгерсона фактически выполняется путем преобразования расстояний в сходства и выполнения PCA (разложение по собственным значениям или разложение по сингулярным значениям). [Другое название этой процедуры ( distances between objects -> similarities between them -> PCAгде загрузки - это искомые координаты) - это анализ основных координат или PCoA .] Таким образом, PCA можно назвать алгоритмом простейшей MDS.

Неметрическая MDS основана на итеративном алгоритме ALSCAL или PROXSCAL (или аналогичном им алгоритме), который является более универсальным методом отображения, чем PCA, и может также применяться к метрической MDS. В то время как PCA сохраняет м важных размеров для вас, ALSCAL / PROXSCAL подходит конфигурацию м размеров (вы предварительно определить м ) и воспроизводят несходства на карте более непосредственно и точно , чем PCA обычно может (смотрите рисунок ниже).

Таким образом, MDS и PCA, вероятно, не находятся на одном уровне, чтобы находиться на одной линии или напротив друг друга. PCA - это просто метод, а MDS - это класс анализа. Как отображение, PCA является частным случаем MDS. С другой стороны, PCA является частным случаем факторного анализа, который, будучи сокращением данных, представляет собой нечто большее, чем просто отображение, а MDS - это только отображение.

Что касается вашего вопроса о метрической MDS по сравнению с неметрической MDS, то здесь мало что комментировать, потому что ответ прост. Если я считаю, что мои входные различия настолько близки к евклидовым расстояниям, что для их отображения в m-мерном пространстве будет достаточно линейного преобразования, я предпочту метрическую MDS. Если я не верю, то необходимо монотонное преобразование, подразумевающее использование неметрических MDS.

Примечание по терминологии для читателя. Термин Classic (al) MDS (CMDS) может иметь два разных значения в обширной литературе по MDS, поэтому он неоднозначен и его следует избегать. Одно из определений состоит в том, что CMDS является синонимом метрики MDS Торгерсона. Другое определение заключается в том, что CMDS - это любая MDS (по любому алгоритму; метрический или неметрический анализ) с одним матричным входом (поскольку существуют модели, анализирующие сразу несколько матриц - отдельная модель "INDSCAL" и реплицированная модель).

Иллюстрация к ответу . Некоторое облако точек (эллипс) отображается на одномерной mds-карте. Пара точек показана красными точками.

Итеративный или «истинный» MDS направлен на прямое восстановление парных расстояний между объектами. Ибо это задача любого МДС . Различные стрессовые или несоответствия критериев можно свести к минимуму между о первоначально оплащенных расстояниях и расстояниях на м аре: , , . Алгоритм может (не метрическая MDS) или не может (метрическая MDS) включать монотонное преобразование таким образом. $\|D_o-D_m\|_2^2$ $\|D_o^2-D_m^2\|_1$ $\|D_o-D_m\|_1$

Основанная на PCA MDS (Torgerson's, или PCoA) не является прямой. Он минимизирует квадратные расстояния между объектами в исходном пространстве и их изображениями на карте. Это не совсем настоящая задача MDS; он успешен, как MDS, только в той степени, в которой отброшенные младшие главные оси слабы. Если объясняет гораздо большую дисперсию, чем то первый может существенно отражать парные расстояния в облаке, особенно для точек, расположенных далеко друг от друга вдоль эллипса. Итеративный MDS всегда будет выигрывать, особенно когда карта нужна очень низкоразмерной. Итеративная MDS также будет успешнее, когда облачный эллипс тонкий, но выполнит задачу mds лучше, чем PCoA. По свойству матрицы двойной центровки (описанной здесь $P_1$ $P_2$ Похоже, что PCoA минимизирует , что отличается от любого из приведенных выше минимизаций. $\|D_o\|_2^2-\|D_m\|_2^2$

Еще раз, PCA проецирует точки облака на наиболее выгодное общекорпоративное подпространство экономии. Он не проецирует попарные расстояния , относительные местоположения точек в подпространстве, наиболее экономящем в этом отношении, как это делает итеративная MDS. Тем не менее, исторически PCoA / PCA считается одним из методов метрической MDS.

— ttnphns
источник

3

(+1) Мне понравились оба ответа, этот, вероятно, немного больше.

— Дмитрий Челов

Ссылка на PDF связана с PCoA. Его можно найти в веб-архиве: web.archive.org/web/20160315120635/http://forrest.psych.unc.edu/…

— Пьер

49

Хм ... совсем другое. В PCA вам дают многомерные непрерывные данные (многомерный вектор для каждого субъекта), и вы пытаетесь выяснить, не нужно ли вам столько измерений для их концептуализации. В (метрической) MDS вам дается матрица расстояний между объектами, и вы пытаетесь выяснить, каково расположение этих объектов в пространстве (и нужно ли вам 1D, 2D, 3D и т. Д. Пространство). В неметрических MDS вы знаете только, что объекты 1 и 2 более отдаленные, чем объекты 2 и 3, поэтому вы пытаетесь определить это количественно, в дополнение к поиску размеров и местоположений.

С заметным воображением вы можете сказать, что общей целью PCA и MDS является визуализация объектов в 2D или 3D. Но, учитывая, как различны входные данные, эти методы не будут обсуждаться как даже отдаленно связанные в любом многомерном учебнике. Я бы предположил, что вы можете преобразовать данные, пригодные для PCA, в данные, пригодные для MDS (скажем, путем вычисления расстояний Махаланобиса между объектами, используя образец ковариационной матрицы), но это немедленно приведет к потере информации: MDS определяется только к местоположению и ротации, а последние два можно сделать более информативно с помощью PCA.

Если бы я должен был кратко показать кому-то результаты неметрической MDS и хотел бы дать им общее представление о том, что она делает, не вдаваясь в подробности, я мог бы сказать:

Учитывая меры сходства или различия, которые мы имеем, мы пытаемся отобразить наши объекты / объекты таким образом, чтобы «города», из которых они состоят, имели расстояния между ними, которые настолько близки к этим показателям сходства, насколько мы можем их сделать. Тем не менее, мы могли бы отобразить их идеально только в мерном пространстве, поэтому я представляю здесь два наиболее информативных измерения - вроде того, что вы бы сделали в PCA, если бы вы показали изображение с двумя ведущими основными компонентами. $n$

— Stask
источник

18

Разве PCA не применяется к матрице корреляции, эквивалентной MDS с евклидовыми расстояниями, вычисленными по стандартизированным переменным?

— хл

Итак, если бы я должен был кратко показать кому-то результаты неметрической системы MDS и хотел бы дать им приблизительное представление о том, что она делает, не вдаваясь в подробности, могу ли я сказать «это похоже на PCA», не вводя в заблуждение?

— Фрейя Харрисон

6

Я бы сказал: «Учитывая показатели сходства или различий, которые у нас есть, мы пытаемся отобразить наши объекты / предметы таким образом, чтобы« города », которые они составляют, имели расстояния между ними, которые настолько близки к этим показателям сходства, как мы можем сделать их. Мы могли бы идеально отобразить их только в мерном пространстве, поэтому я представляю здесь наиболее информативные измерения - вроде того, что вы бы сделали в PCA, если бы вы показали картинку с двумя ведущими основными компонентами ».

n

$n$

— StasK

+1 Круто - для меня этот комментарий приятно связывает ваш ответ. Благодарю.

— Фрейя Харрисон

47

Два типа метрических МДС

Задача метрического многомерного масштабирования (MDS) может быть абстрактно сформулирована следующим образом: при заданной матрице парных расстояний между точками найти низкоразмерное вложение точек данных в такое, что Евклидовы расстояния между ними аппроксимируют данные расстояния: $n\times n$ $\mathbf D$ $n$ $\mathbb R^k$

‖ x_{i} - x_{j} ‖ \approx D_{i j} .

$\|\mathbf x_i - \mathbf x_j\|\approx D_{ij}.$

Если «приблизительный» здесь понимается в обычном смысле ошибки реконструкции, т.е. если целью является минимизация функции стоимости, называемой «стресс»: то решение не эквивалентно PCA. Решение не дается какой-либо замкнутой формулой и должно быть вычислено с помощью специального итерационного алгоритма.

Stress \sim ‖ D - ‖ x_{i} - x_{j} ‖ ‖^{2},

$\text{Stress} \sim \Big\|\mathbf D - \|\mathbf x_i - \mathbf x_j\|\Big\|^2,$

«Классическая MDS», также известная как «Torgerson MDS», заменяет эту функцию стоимости связанной, но не эквивалентной , называемой «деформацией»: который стремится минимизировать ошибку восстановления центрированных скалярных произведений вместо расстояний. Оказывается, что можно вычислить из (если - евклидовы расстояния) и что минимизация ошибки восстановления - это именно то, что делает PCA, как показано в следующем разделе.

Strain \sim ‖ K_{c} - ⟨ x_{i}, x_{j} ⟩ ‖^{2},

$\text{Strain} \sim \Big\|\mathbf K_c - \langle\mathbf x_i, \mathbf x_j\rangle\Big\|^2,$

K_{c}

$\mathbf K_c$

D

$\mathbf D$

D

$\mathbf D$

K_{c}

$\mathbf K_c$

Классическая (Torgerson) MDS на евклидовых расстояниях эквивалентна PCA

Пусть данные будут собраны в матрице размером с наблюдениями в строках и элементами в столбцах. Пусть - центрированная матрица с вычтенными значениями столбцов. $\mathbf X$ $n \times k$ $\mathbf X_c$

Затем PCA сводится к выполнению разложения по сингулярным значениям , причем главными компонентами являются столбцы . Распространенным способом их получения является собственное разложение ковариационной матрицы , но другим возможным способом является выполнение собственного разложения матрица Грама : главными компонентами являются ее собственные векторы, масштабируемые квадратными корнями из соответствующих собственных значений. $\mathbf X_c = \mathbf {USV^\top}$ $\mathbf{US}$ $\frac{1}{n}\mathbf X_c^\top \mathbf X^\vphantom{\top}_c$ $\mathbf K_c = \mathbf X^\vphantom{\top}_c \mathbf X^\top_c=\mathbf U \mathbf S^2 \mathbf U^\top$

Легко видеть, что , где - это матрица единиц. Отсюда мы сразу получаем, что где - это грамм-матрица нецентрированных данных. Это полезно: если мы имеем матрицу Грама uncentered данных мы можем центрировать его непосредственно, без возвращения к сама по себе. Эта операция иногда называется $\mathbf X_c = (\mathbf I - \frac{1}{n}\mathbf 1_n)\mathbf X$ $\mathbf 1_n$ $n \times n$

K_{c} = (I - \frac{1_{n}}{n}) K (I - \frac{1_{n}}{n}) = K - \frac{1_{n}}{n} K - K \frac{1_{n}}{n} + \frac{1_{n}}{n} K \frac{1_{n}}{n},

$\mathbf K_c = \left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\mathbf K\left(\mathbf I - \frac{\mathbf 1_n}{n}\right) = \mathbf K - \frac{\mathbf 1_n}{n} \mathbf K - \mathbf K \frac{\mathbf 1_n}{n} + \frac{\mathbf 1_n}{n} \mathbf K \frac{\mathbf 1_n}{n},$

K = X X^{⊤}

$\mathbf K = \mathbf X \mathbf X^\top$

X

$\mathbf X$ двойное центрирование : обратите внимание, что это равнозначно вычитанию средних значений строк и значений столбцов из (и добавлению обратно среднего среднего значения, которое вычитается дважды), так что и средние значения строк и значений столбцов равны нулю

K

$\mathbf K$

K_{c}

$\mathbf K_c$

Теперь рассмотрим матрицу парных евклидовых расстояний с, Может ли эта матрица быть преобразована в для выполнения PCA? Оказывается, ответ - да. $n \times n$ $\mathbf D$ $D_{ij} = \|\mathbf x_i - \mathbf x_j\|$ $\mathbf K_c$

Действительно, по закону косинусов мы видим, что Таким образом отличается от только некоторыми константами строк и столбцов (здесь означает поэлементный квадрат!). Это означает, что если мы его в центр, то получим :

\begin{aligned} D_{i j}^{2} = ‖ x_{i} - x_{j} ‖^{2} & = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 ⟨ x_{i} - \bar{x}, x_{j} - \bar{x} ⟩ \\ = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 [K_{c}]_{i j} . \end{aligned}

$\begin{align} D_{ij}^2 = \|\mathbf x_i - \mathbf x_j\|^2 &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2\langle\mathbf x_i - \bar{\mathbf x}, \mathbf x_j - \bar{\mathbf x} \rangle \\ &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2[K_c]_{ij}. \end{align}$

- D^{2} / 2

$-\mathbf D^2/2$

K_{c}

$\mathbf K_c$

D^{2}

$\mathbf D^2$

K_{c}

$\mathbf K_c$

K_{c} = - (I - \frac{1_{n}}{n}) \frac{D^{2}}{2} (I - \frac{1_{n}}{n}) .

$\mathbf K_c = -\left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\frac{\mathbf D^2}{2}\left(\mathbf I - \frac{\mathbf 1_n}{n}\right).$

Это означает, что, начиная с матрицы парных евклидовых расстояний мы можем выполнить PCA и получить главные компоненты. Это именно то, что делает классическая (Torgerson) MDS: , поэтому ее результат эквивалентен PCA. $\mathbf D$ $\mathbf D \mapsto \mathbf K_c \mapsto \mathbf{US}$

Конечно, если вместо выбрана любая другая мера расстояния тогда классическая MDS приведет к чему-то еще. $\|\mathbf x_i - \mathbf x_j\|$

Ссылка: Элементы статистического обучения , раздел 18.5.2.

— амеба
источник

Я должен признать, что я еще не обдумал это: но вот «проверка правдоподобия», которая меня интересует: из размеров матриц не должна ли ваша матрица Грама быть которая равна ?

X X^{T}

$\mathbf X \mathbf X^T$

n \times n

$n \times n$

— cbeleites

Спасибо @cbeleites, конечно, вы правы - это просто опечатка. Исправлю это сейчас. Дайте мне знать, если вы видите другие ошибки (или можете свободно редактировать).

— амеба

1

+1. И спасибо, что показали математикой то, что было сказано в первом параграфе моего ответа.

— ttnphns

2

+1 Хотелось бы, чтобы это был принятый / лучший ответ. Я думаю, что это легко заслуживает того, чтобы быть.

— Жубарб

35

PCA дает ТОЧНЫЕ результаты, аналогичные классическим MDS, если используется евклидово расстояние.

Я цитирую Cox & Cox (2001), стр. 43-44:

Существует двойственность между анализом главных компонент и PCO [анализ главных координат, иначе классическая MDS], где различия определяются евклидовым расстоянием.

Раздел в Cox & Cox объясняет это довольно четко:

Представьте, что у вас есть = атрибуты продуктов по измерениям, средним по центру $X$ $n$ $p$
PCA достигается путем нахождения собственных векторов ковариационной матрицы ~ (деленной на n-1) - назовем собственные векторы и собственные значения . $X'X$ $\xi$ $\mu$
MDS достигается сначала преобразованием в матрицу расстояний, здесь евклидово расстояние, т. Е. , затем нахождением собственных векторов - назовем собственные векторы и собственные значения . $X$ $XX'$ $v$ $\lambda$
стр. 43: «Хорошо известный результат, что собственные значения такие же, как для , вместе с дополнительными np нулевыми собственными значениями». Итак, для , = $XX'$ $X'X$ $i < p$ $\mu_i$ $\lambda_i$
Возвращаясь к определению собственных векторов, рассмотрим собственные значения. $i^{th}$ $X'Xv_i = \lambda_i v_i$
Предварительно умножив на , мы получим $v_i$ $X'$ $(X'X)X'v_i = \lambda_i X'v_i$
У нас также есть . Поскольку , мы получаем, что для . $X'X \xi_i = \mu_i \xi_i$ $\lambda_i = \mu_i$ $\xi_i = X'v_i$ $i<p$

— user1705135
источник

2

Я сделал некоторое кодирование на R и использовал cmdscale как реализацию классического MDS и prcomp для PCA - однако результат не тот же ... есть ли какой-то момент, который мне не хватает ?!

— user4581

3

same results as classical MDS, Под «классической MDS» здесь вы подразумеваете MDS Торгерсона. Тогда утверждение действительно верно, поскольку MDS Торгерсона на самом деле является PCA (только начиная с матрицы расстояний). Если определить «классическую MDS» по-другому (см. Мой ответ), то утверждение неверно.

— ttnphns

7

Подождите, как же XX 'обеспечивает Евклидово расстояние ?? XX 'является внутренним произведением - если бы матрица была стандартизирована, то это дало бы косинусное сходство. Евклидово расстояние требует вычитания и квадратного корня.

— ShainaR

@ user1705135 Я смущен вашей точки 5. Не должно быть ?

X X^{'} v_{i} = λ_{i} v_{i}

$XX'v_i = \lambda_i v_i$

— Майкл

4

Сравнение: «Метрическая MDS дает тот же результат в виде PCA» - процедурно - когда мы смотрим на то, как SVD используется для получения оптимального. Но сохраненные многомерные критерии отличаются. PCA использует центрированную ковариационную матрицу, в то время как MDS использует граммовую матрицу, полученную с помощью двухцентровых матриц расстояний.

Поместим разницу математически: PCA можно рассматривать как максимизирующий над при ограничениях, что ортогонально, тем самым давая оси / главные компоненты. В многомерных матрицах масштабирования грамм (а СДП матрица , которая может быть представлена в виде ) вычисляются из евклидова расстояния между строками в и следующий минимизируются над . свести к минимуму: . $Tr(X^T(I-\frac{1}{n}ee^T)X)$ $X$ $X$ $Z^TZ$ $X$ $Y$ $||G-Y^TY||_{F}^{2}$

— катафалк
источник