Во-первых, существуют разные способы построения так называемых биплотов в случае анализа соответствия. Во всех случаях основная идея состоит в том, чтобы найти способ показать наилучшее двухмерное приближение «расстояний» между ячейками строк и столбцами. Другими словами, мы ищем иерархию (мы также говорим о «рукоположении») отношений между строками и столбцами таблицы сопряженности.
Очень кратко, CA разбивает статистику хи-квадрат, связанную с двусторонней таблицей, на ортогональные факторы, которые максимизируют разделение между оценками строк и столбцов (то есть частоты, вычисленные из таблицы профилей). Здесь вы видите, что есть некоторая связь с PCA, но мера дисперсии (или метрика), сохраняемая в CA, является , которая зависит только от профилей столбцов (поскольку она имеет тенденцию придавать большее значение модальностям, которые имеют большие предельные значения, мы также можем перевесить исходные данные, но это уже другая история).χ2
Вот более подробный ответ. Реализация, предложенная в corresp()
функции (in MASS
), следует из представления CA как SVD-разложения фиктивных кодированных матриц, представляющих строки и столбцы (такие, что , с общей выборкой). Это в свете канонического корреляционного анализа. Французская школа анализа данных, напротив, рассматривает CA как вариант PCA, где вы ищите направления, которые максимизируют «инерцию» в облаке данных. Это делается путем диагонализации матрицы инерции, вычисленной по центрированной и масштабированной (по предельным частотам) двусторонней таблице, и выражением профилей строк и столбцов в этой новой системе координат.NрTС= NN
Если вы рассматриваете таблицу со столбцами и столбцами , каждая строка взвешивается на соответствующую предельную сумму, которая дает ряд условных частот, связанных с каждой строкой: . Краевой столбец называется средним профилем (для строк). Это дает нам вектор координат, также называемый профилем (по строкам). Для столбца имеем . В обоих случаях мы будем рассматривать профили строки (связанные с их весом ) как отдельные элементы в пространстве столбцов, а профили столбца (связанные с их весомj = 1 , … , J f j | i = n i j / n i ⋅ f i | j = n i j / n ⋅ j I f i ⋅ J f ⋅ j χ 2 i i ′я = 1 , … , яj = 1 , … , JеJ | я= nя ж/ ня ⋅ея | J= nя ж/ н⋅ jяея ⋅Jе⋅ j ) как отдельные лица в пространстве строк. Метрика, используемая для вычисления близости между любыми двумя людьми, - это расстояние . Например, между двумя строками и имеемχ2яя'
d2χ2( я , я') = ∑J = 1JNN⋅ j( ня жNя ⋅- ня'JNя'⋅)2
Вы также можете увидеть связь со статистикой , отметив, что это просто расстояние между наблюдаемым и ожидаемым значениями, где ожидаемые значения (при , независимость двух переменных) вычисляются как для каждой ячейки . Если бы две переменные были независимы, все профили строк были бы одинаковыми и идентичными соответствующему профилю поля. Другими словами, когда есть независимость, ваша таблица непредвиденных обстоятельств полностью определяется ее полями.H 0 n i ⋅ × n ⋅ j / n ( i , j )χ2ЧАС0Nя ⋅× n⋅ j/н( я , j )
Если вы понимаете PCA в профилях строк (рассматриваемых как отдельные лица), заменив евклидово расстояние наcos 2 i j χ 2χ2расстояние, то вы получите свой CA. Первая главная ось - это линия, которая является ближайшей ко всем точкам, а соответствующее собственное значение - это инерция, объясняемая этим измерением. Вы можете сделать то же самое с профилями столбцов. Можно показать, что существует симметрия между этими двумя подходами, и более конкретно, что главные компоненты (ПК) для профилей столбцов связаны с теми же собственными значениями, чем ПК для профилей строк. На биплоте показаны координаты отдельных лиц в этой новой системе координат, хотя эти лица представлены в отдельном факториальном пространстве. При условии, что каждый индивид / модальность хорошо представлен в факториальном пространстве (вы можете посмотреть насоз2модальности с 1-ой главной осью, которая является мерой корреляции / ассоциации), вы даже можете интерпретировать близость между элементами и вашей таблицы сопряженности (как это можно сделать, посмотрев на остатки вашего теста независимости, например ).яJχ2chisq.test(tab)$expected-chisq.test(tab)$observed
Общая инерция вашего CA (= сумма собственных значений) является статистикой деленной на (который является Пирсона ). n ϕ 2χ2Nφ2
На самом деле, есть несколько пакетов , которые могут предоставить вам расширенный УЦ по сравнению с функцией , доступной в MASS
упаковке: ade4 , FactoMineR , Anacor и ки .
Последний является тот , который был использован для конкретной иллюстрации, и документ был опубликован в журнале статистического программного обеспечения , который объясняет большинство его functionnalities: Анализ соответствия в R с Двух- и трехмерная графика: В ча пакета .
Итак, ваш пример цвета глаз / волос может быть воспроизведен разными способами:
data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab
library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)
library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))
library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib
library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))
Во всех случаях то, что мы читаем в полученном биплоте, в основном (я ограничиваю свою интерпретацию 1-ой осью, которая объясняла большую часть инерции):
- первая ось подчеркивает четкую оппозицию между светлым и темным цветом волос, а также между голубыми и карими глазами;
- Люди со светлыми волосами, как правило, имеют голубые глаза, а люди с черными волосами, как правило, имеют карие глаза.
Существует много дополнительных ресурсов по анализу данных в лаборатории биоинформатики из Лиона во Франции. В основном это по-французски, но я думаю, что это не будет для вас проблемой. Следующие два раздаточных материала должны быть интересны в качестве первого начала:
Наконец, когда вы рассматриваете полное дизъюнктивное (фиктивное) кодирование переменных, вы получаете анализ множественных соответствий .К