Интерпретация графиков анализа 2D соответствия

Я искал в интернете повсюду ... Мне еще предстоит найти действительно хороший обзор того, как интерпретировать 2D-графики анализа соответствия. Может ли кто-нибудь дать совет по интерпретации расстояний между точками?

Возможно, пример поможет, вот график, который можно найти на многих веб-сайтах, которые я видел, где обсуждается анализ соответствия. Красные треугольники представляют цвет глаз, а черные точки - цвет волос.

альтернативный текст

Глядя на график выше, не могли бы вы сделать несколько заявлений о том, что вы видите в этих данных. Интересует вопрос о различных измерениях и отношениях между треугольниками и точками?

Было бы полезно дать пояснения к точкам строк и стихам, а также использовать слово «профиль» с особым акцентом на примере.

interpretation correspondence-analysis biplot

— Брэндон Бертельсен
источник

В дополнение к превосходному описанию @ chl, приведенному ниже, рассмотрим также этот, рассматривающий простые CA и PCA как просто формы «анализа биплота».

— ttnphns

Во-первых, существуют разные способы построения так называемых биплотов в случае анализа соответствия. Во всех случаях основная идея состоит в том, чтобы найти способ показать наилучшее двухмерное приближение «расстояний» между ячейками строк и столбцами. Другими словами, мы ищем иерархию (мы также говорим о «рукоположении») отношений между строками и столбцами таблицы сопряженности.

Очень кратко, CA разбивает статистику хи-квадрат, связанную с двусторонней таблицей, на ортогональные факторы, которые максимизируют разделение между оценками строк и столбцов (то есть частоты, вычисленные из таблицы профилей). Здесь вы видите, что есть некоторая связь с PCA, но мера дисперсии (или метрика), сохраняемая в CA, является , которая зависит только от профилей столбцов (поскольку она имеет тенденцию придавать большее значение модальностям, которые имеют большие предельные значения, мы также можем перевесить исходные данные, но это уже другая история). $\chi^2$

Вот более подробный ответ. Реализация, предложенная в corresp()функции (in MASS), следует из представления CA как SVD-разложения фиктивных кодированных матриц, представляющих строки и столбцы (такие, что , с общей выборкой). Это в свете канонического корреляционного анализа. Французская школа анализа данных, напротив, рассматривает CA как вариант PCA, где вы ищите направления, которые максимизируют «инерцию» в облаке данных. Это делается путем диагонализации матрицы инерции, вычисленной по центрированной и масштабированной (по предельным частотам) двусторонней таблице, и выражением профилей строк и столбцов в этой новой системе координат. $R^tC=N$ $N$

Если вы рассматриваете таблицу со столбцами и столбцами , каждая строка взвешивается на соответствующую предельную сумму, которая дает ряд условных частот, связанных с каждой строкой: . Краевой столбец называется средним профилем (для строк). Это дает нам вектор координат, также называемый профилем (по строкам). Для столбца имеем . В обоих случаях мы будем рассматривать профили строки (связанные с их весом ) как отдельные элементы в пространстве столбцов, а профили столбца (связанные с их весом $i=1,\dots,I$ $j=1,\dots,J$ $f_{j|i}=n_{ij}/n_{i\cdot}$ $f_{i|j}=n_{ij}/n_{\cdot j}$ $I$ $f_{i\cdot}$ $J$ $f_{\cdot j}$ ) как отдельные лица в пространстве строк. Метрика, используемая для вычисления близости между любыми двумя людьми, - это расстояние . Например, между двумя строками и имеем $\chi^2$ $i$ $i'$

d_{χ^{2}}^{2} (i, i^{'}) = \sum_{j = 1}^{J} \frac{n}{n_{\cdot j}} {(\frac{n_{i j}}{n_{i \cdot}} - \frac{n_{i^{'} j}}{n_{i^{'} \cdot}})}^{2}

$d^2_{\chi^2}(i,i')=\sum_{j=1}^J\frac{n}{n_{\cdot j}}\left(\frac{n_{ij}}{n_{i\cdot}}-\frac{n_{i'j}}{n_{i'\cdot}} \right)^2$

Вы также можете увидеть связь со статистикой , отметив, что это просто расстояние между наблюдаемым и ожидаемым значениями, где ожидаемые значения (при , независимость двух переменных) вычисляются как для каждой ячейки . Если бы две переменные были независимы, все профили строк были бы одинаковыми и идентичными соответствующему профилю поля. Другими словами, когда есть независимость, ваша таблица непредвиденных обстоятельств полностью определяется ее полями. $\chi^2$ $H_0$ $n_{i\cdot}\times n_{\cdot j}/n$ $(i,j)$

Если вы понимаете PCA в профилях строк (рассматриваемых как отдельные лица), заменив евклидово расстояние на $\chi^2$ расстояние, то вы получите свой CA. Первая главная ось - это линия, которая является ближайшей ко всем точкам, а соответствующее собственное значение - это инерция, объясняемая этим измерением. Вы можете сделать то же самое с профилями столбцов. Можно показать, что существует симметрия между этими двумя подходами, и более конкретно, что главные компоненты (ПК) для профилей столбцов связаны с теми же собственными значениями, чем ПК для профилей строк. На биплоте показаны координаты отдельных лиц в этой новой системе координат, хотя эти лица представлены в отдельном факториальном пространстве. При условии, что каждый индивид / модальность хорошо представлен в факториальном пространстве (вы можете посмотреть на $\cos^2$ модальности с 1-ой главной осью, которая является мерой корреляции / ассоциации), вы даже можете интерпретировать близость между элементами и вашей таблицы сопряженности (как это можно сделать, посмотрев на остатки вашего теста независимости, например ). $i$ $j$ $\chi^2$ chisq.test(tab)$expected-chisq.test(tab)$observed

Общая инерция вашего CA (= сумма собственных значений) является статистикой деленной на (который является Пирсона ). $\chi^2$ $n$ $\phi^2$

На самом деле, есть несколько пакетов , которые могут предоставить вам расширенный УЦ по сравнению с функцией , доступной в MASSупаковке: ade4 , FactoMineR , Anacor и ки .

Последний является тот , который был использован для конкретной иллюстрации, и документ был опубликован в журнале статистического программного обеспечения , который объясняет большинство его functionnalities: Анализ соответствия в R с Двух- и трехмерная графика: В ча пакета .

Итак, ваш пример цвета глаз / волос может быть воспроизведен разными способами:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

Во всех случаях то, что мы читаем в полученном биплоте, в основном (я ограничиваю свою интерпретацию 1-ой осью, которая объясняла большую часть инерции):

первая ось подчеркивает четкую оппозицию между светлым и темным цветом волос, а также между голубыми и карими глазами;
Люди со светлыми волосами, как правило, имеют голубые глаза, а люди с черными волосами, как правило, имеют карие глаза.

Существует много дополнительных ресурсов по анализу данных в лаборатории биоинформатики из Лиона во Франции. В основном это по-французски, но я думаю, что это не будет для вас проблемой. Следующие два раздаточных материала должны быть интересны в качестве первого начала:

Наконец, когда вы рассматриваете полное дизъюнктивное (фиктивное) кодирование переменных, вы получаете анализ множественных соответствий . $k$

— хл
источник

@Brandon 1-я ось является осью «доминирования» (светлая -> темная) для обеих модальностей, но мы также можем видеть, что 1-я ось противопоставляет синие и зеленые глаза карие и карие глаза (их координаты имеют противоположные знаки), и комбинация рыжие волосы / зеленые глаза - что довольно редко - вносит основной вклад в ось 2-го фактора. Поскольку эта ось объясняет только 9,5% общей инерции, довольно сложно сделать твердые выводы (особенно в отношении генетических гипотез).

— ЧЛ

@Brandon Еще две ссылки (на этот раз на английском языке): курс PBIL ( j.mp/cHZT7X ) и ресурсы Майкла Фрэндли ( пакеты j.mp/cYHyVn + vcdи vcdExtraR, последняя включает приятную виньетку).

— ЧЛ

@ Брендон Да, одна модальность = одна категория для вашей переменной. Для вашего второго вопроса, corэто квадрат корреляции с осью, и ctrэто вклад (он должен быть разделен на 10, чтобы быть прочитанным как%). Так что «рыжие волосы» дают 55,1% инерции 2-й оси. В определенном смысле я обнаружил, что вывод FactoMineR более «интуитивно понятен» ( CA(tab, graph=FALSE)$row$contribдает вам непосредственно%).

— ЧЛ

@chl: вау, для тех, кто ничего не знает о CCA или «французском пути», это было отличное чтение! Большое спасибо. Я также нашел это с некоторыми поисками в Google, которые могут представлять интерес: www-stat.stanford.edu/~susan/papers/dfc.pdf

— ars

@ars (+1) Спасибо за ссылку (не знал об этой монографии, выглядит интересно). Моими лучшими рекомендациями для недавних разработок на самом деле являются ВСЕ документы от Jan de Leeuw и эти две книги: « Анализ множественной корреспонденции и связанные методы из Greenacre» и « Геометрический анализ данных: от анализа корреспонденции до анализа структурированных данных из Le Roux & Rouanet» (французский способ) ,

— chl