PCA и анализ соответствия в их отношении к Biplot

Биплот часто используется для отображения результатов анализа основных компонентов (и связанных с ним методов). Это двойная или наложенная диаграмма рассеяния, показывающая загрузки компонентов и оценки компонентов одновременно. Сегодня @amoeba сообщил мне, что он дал ответ, отходящий от моего комментария, на вопрос, который спрашивает о том, как создаются / масштабируются координаты биплота; и его ответ рассматривает несколько способов в некоторых деталях. И @amoeba спросил, поделюсь ли я своим опытом с биплотом.

Мой опыт (как теоретический, так и экспериментальный), хотя и очень скромный, тем не менее, подчеркивает две вещи, которые не так часто распознаются: (1) биплот должен быть классифицирован как аналитическая техника, а не вспомогательная диаграмма рассеяния; (2) PCA, анализ соответствия (и некоторые другие хорошо известные методы) на самом деле являются частными случаями биплота. Или, по крайней мере, они оба - близнецы для биплота. Если вы можете сделать биплот, вы можете сделать два других.

Мой вопрос к вам: как они (PCA, CA, Biplot) связаны для вас? Пожалуйста, поделитесь своими мыслями. Между тем я публикую свой собственный отчет об этом. Я хотел бы попросить добавить больше ответов и сделать критические замечания.

— ttnphns
источник

Вот Это Да! Я не ожидал такой масштабной темы, когда попросил комментировать :) Спасибо. +1 за интересную дискуссию. Пока я перевариваю ваш ответ, позвольте мне уточнить: говоря, что я дал ответ, «отходящий» от вашего комментария, вы имеете в виду, что я его расширил или что я против? Я конечно не хотел противиться.

— говорит амеба: восстанови монику

Я имел в виду «начал и развивал [за свой счет]» Нет, я не видел никакой оппозиции (хотя я хотел бы, чтобы оппозиция от таких экспертов, как вы).

— ttnphns

SVD

Разложение по сингулярным числам является корнем трех родственных методов. Пусть будет таблицей действительных значений. SVD - это . Мы можем использовать только первых скрытых векторов и корней, чтобы получить как наилучшее приближение -rank для : . Далее мы отметим , , . $\bf X$ $r \times c$ $\bf X = U_{r\times r}S_{r\times c}V_{c\times c}'$ $m$ $[m \le\min(r,c)]$ $\bf X_{(m)}$ $m$ $\bf X$ $\bf X_{(m)} = U_{r\times m}S_{m\times m}V_{c\times m}'$ $\bf U=U_{r\times m}$ $\bf V=V_{c\times m}$ $\bf S=S_{m\times m}$

Сингулярные значения и их квадраты, собственные значения, представляют масштаб , также называемый инерцией , данных. Левые собственные векторы - координаты строк данных на главных осях; в то время как правые собственные векторы являются координатами столбцов данных на тех же скрытых осях. Весь масштаб (инерция) сохраняется в поэтому координаты и нормализованы по единицам (столбец SS = 1). $\bf S$ $\bf U$ $m$ $\bf V$ $\bf S$ $\bf U$ $\bf V$

Анализ основных компонентов СВД

В РСА, он согласован рассматривать строки из в качестве случайных наблюдений (которые могут прийти или идти), но рассмотреть столбцы из в качестве фиксированного числа измерений или переменных. Следовательно, целесообразно и удобно устранить влияние числа строк (и только строк) на результаты, особенно на собственные значения, путем svd-разложения вместо . Обратите внимание, что это соответствует собственному разложению , где - размер выборки . (Часто, в основном с ковариациями - чтобы сделать их беспристрастными - мы предпочитаем делить на , но это нюанс.) $\bf X$ $\bf X$ $\mathbf Z=\mathbf X/\sqrt{r}$ $\bf X$ $\mathbf {X'X}/r$ $r$ n $r-1$

Умножение на константу влияет только на ; и остаются нормализованными по единицам координатами строк и столбцов. $\bf X$ $\bf S$ $\bf U$ $\bf V$

Отсюда и везде ниже мы переопределяем , и как указано в svd из , а не из ; является нормализованной версией , и нормализация варьируется между типами анализа. $\bf S$ $\bf U$ $\bf V$ $\bf Z$ $\bf X$ $\bf Z$ $\bf X$

Умножая мы приводим средний квадрат в столбцах к 1. Учитывая, что строки являются случайными для нас случаями, это логично. Таким образом, мы получили то, что называют стандартными или стандартизированными баллами наблюдений PCA , . Мы не делаем то же самое с потому что переменные являются фиксированными объектами. $\mathbf U\sqrt{r}=\bf U_*$ $\bf U$ $\bf U_*$ $\bf V$

Затем мы можем наделять строки со всей инерцией, чтобы получить Нестандартизованные координаты строки, называемые также в PCA сырья основных компонентов оценки наблюдений: . Эту формулу мы назовем «прямым путем». Тот же результат возвращается ; мы будем называть это «косвенным путем». $\bf U_*S$ $\bf XV$

Аналогично, мы можем присвоить столбцам всю инерцию, чтобы получить нестандартные координаты столбца, также называемые в PCA компонентно-переменными нагрузками : [может игнорировать транспонирование, если квадратный], - "прямой путь". Этот же результат возвращает , - «косвенный путь». (Вышеуказанные стандартизированные оценки главных компонентов также могут быть вычислены из нагрузок как , где - нагрузки.) $\bf VS'$ $\bf S$ $\bf Z'U$ $\bf X(AS^{-1/2})$ $\bf A$

Biplot

Рассмотрим биплот в смысле самостоятельного анализа уменьшения размерности, а не просто как «двойную диаграмму рассеяния». Этот анализ очень похож на PCA. В отличие от PCA, и строки, и столбцы обрабатываются симметрично как случайные наблюдения, что означает, что рассматривается как случайная двусторонняя таблица различной размерности. Затем, естественно, нормализуйте его как и перед svd: . $\bf X$ $r$ $c$ $\mathbf Z=\mathbf X/\sqrt{rc}$

После SVD вычислите стандартные координаты строки, как мы это делали в PCA: . Сделайте то же самое (в отличие от PCA) с векторами столбцов, чтобы получить стандартные координаты столбца : . Стандартные координаты, как строк, так и столбцов, имеют среднеквадратичное значение 1. $\mathbf U_*=\mathbf U\sqrt{r}$ $\mathbf V_*=\mathbf V\sqrt{c}$

Мы можем присвоить координатам строк и / или столбцов инерцию собственных значений, как мы это делаем в PCA. Нестандартные координаты строки: (прямой путь). Нестандартные координаты столбца: (прямой путь). А как насчет косвенного пути? Вы можете легко вывести путем подстановок, что косвенная формула для нестандартных координат строки - это , а для нестандартных координат столбца - . $\bf U_*S$ $\bf V_*S'$ $\mathbf {XV_*}/c$ $\mathbf {X'U_*}/r$

СПС как частный случай Биплота . Из приведенных выше описаний вы, вероятно, узнали, что PCA и биплот отличаются только тем, как они нормализуют в который затем разлагается. Биплот нормализуется как по числу строк, так и по количеству столбцов; СПС нормализуется только по количеству строк. Следовательно, есть небольшая разница между этими двумя в вычислениях после SVD. Если при выполнении биплота вы зададите в его формулах вы получите именно результаты PCA. Таким образом, биплот можно рассматривать как универсальный метод, а PCA - как частный случай биплота. $\bf X$ $\bf Z$ $c=1$

[ Колонка центрируется . Некоторые пользователи могут сказать: Стоп, но разве PCA не требует также и, прежде всего, центрирования столбцов данных (переменных), чтобы объяснить отклонения ? Хотя биплот может не делать центрирование? Мой ответ: только PCA в узком смысле делает центрирование и объясняет дисперсию; Я обсуждаю линейный PCA в общем смысле, PCA, который объясняет некую сумму квадратов отклонений от выбранного источника; Вы можете выбрать это значение данных, ноль или что угодно. Таким образом, операция «центрирования» не может отличить PCA от биплота.]

Пассивные строки и столбцы

В биплотах или PCA вы можете установить некоторые строки и / или столбцы как пассивные или дополнительные. Пассивная строка или столбец не влияет на SVD и, следовательно, не влияет на инерцию или координаты других строк / столбцов, но получает свои координаты в пространстве главных осей, создаваемых активными (не пассивными) строками / столбцами.

Чтобы некоторые точки (строки / столбцы) были пассивными, (1) определите и - количество только активных строк и столбцов. (2) Установите в ноль пассивные строки и столбцы в перед SVD. (3) Используйте «косвенные» способы для вычисления координат пассивных строк / столбцов, так как их значения собственного вектора будут равны нулю. $r$ $c$ $\bf Z$

В PCA, когда вы вычисляете оценки компонентов для новых входящих случаев с помощью загрузок, полученных по старым наблюдениям ( используя матрицу коэффициентов оценки ), вы фактически делаете то же самое, что берете эти новые случаи в PCA и сохраняете их пассивными. Аналогично, вычисление корреляций / ковариаций некоторых внешних переменных с оценками компонентов, полученными с помощью PCA, эквивалентно принятию этих переменных в этом PCA и сохранению их пассивности.

Произвольное распространение инерции

Среднеквадратичные значения столбцов (MS) стандартных координат равны 1. Среднеквадратичные значения столбцов (MS) нестандартных координат равны инерции соответствующих главных осей: вся инерция собственных значений была передана собственным векторам для получения нестандартных координат.

В биплоте : стандартные координаты строки имеют MS = 1 для каждой главной оси. Строка нестандартизованные координат, которая также называется ROW главных координат есть MS = соответствующее собственное . То же самое верно для стандартных столбцов и нестандартных (главных) координат. $\bf U_*$ $\mathbf {U_*S} = \mathbf {XV_*}/c$ $\bf Z$

Как правило, не требуется, чтобы координаты были наделены инерцией ни полностью, ни полностью. Произвольное распространение допускается, если необходимо по какой-либо причине. Пусть будет доля инерции, которая должна идти в строках. Тогда общая формула координат строки имеет вид: (прямой путь) = (косвенный путь). Если мы получаем стандартные координаты строки, тогда как при мы получаем координаты главной строки. $p_1$ $\bf U_*S^{p1}$ $\mathbf {XV_*S^{p1-1}}/c$ $p_1=0$ $p_1=1$

Аналогично будет доля инерции, которая должна идти в столбцы. Тогда общая формула координат столбца: (прямой путь) = (косвенный путь). Если мы получаем стандартные координаты столбца, тогда как при мы получаем координаты главного столбца. $p_2$ $\bf V_*S^{p2}$ $\mathbf {X'U_*S^{p2-1}}/r$ $p_2=0$ $p_2=1$

Общие косвенные формулы универсальны в том смысле, что они позволяют вычислять координаты (стандартные, главные или промежуточные) также для пассивных точек, если они есть.

Если они говорят, что инерция распределена между точками строки и столбца. , т.е. строк главной колонки стандарта, biplots иногда называют "форма biplots" или "строка-метрика сохранения" biplots. , т.е. строки стандартным столбца главный, biplots часто называют в рамках PCA литературы "ковариационные biplots" или "колонна-метрике сохранения" biplots; они отображают переменные нагрузки ( которые сопоставляются с ковариациями) плюс стандартизированные оценки компонентов, когда применяются в PCA. $p_1+p_2=1$ $p_1=1,p_2=0$ $p_1=0,p_2=1$

В анализ соответствий , часто используется и называется «симметричным» или «канонический» нормализация по инерции - это позволяет (хотя и в какой - то засчёт евклидовой геометрической строгостью) сравнить близость между строк и столбцов точек, как мы можно сделать на многомерной разворачивающейся карте. $p_1=p_2=1/2$

Анализ соответствия (евклидова модель)

Двусторонний (= простой) анализ соответствий (CA) - это биплот, используемый для анализа двухсторонней таблицы сопряженности, то есть неотрицательной таблицы, записи которой имеют значение некоторого рода сходства между строкой и столбцом. При использовании таблицы частот используется анализ соответствия модели хи-квадрат. Когда записи, скажем, означают или другие оценки, используется более простая евклидова модель CA.

Евклидова модель CA - это просто описанный выше биплот, только то, что таблица дополнительно предварительно обрабатывается перед тем, как вводить операции биплота. В частности, значения нормированы не только и , но и от общей суммы . $\bf X$ $r$ $c$ $N$

Предварительная обработка состоит из центрирования, затем нормализации по средней массе. Центрирование может быть различным, чаще всего: (1) центрирование столбцов; (2) центрирование рядов; (3) двустороннее центрирование, которое является той же самой операцией, что и вычисление частотных остатков; (4) центрирование столбцов после выравнивания сумм столбцов; (5) центрирование строк после выравнивания сумм строк. Нормализация по средней массе делится на среднее значение ячейки исходной таблицы. На этапе предварительной обработки пассивные строки / столбцы, если они существуют, стандартизируются пассивно: они центрируются / нормализуются по значениям, вычисленным из активных строк / столбцов.

Затем на предварительно обработанном делается обычный биплот , начиная с . $\bf X$ $\mathbf Z=\mathbf X/\sqrt{rc}$

Взвешенный биплот

Представьте, что активность или важность строки или столбца может быть любым числом от 0 до 1, а не только 0 (пассивным) или 1 (активным), как в классическом биплоте, обсуждавшемся до сих пор. Мы могли бы взвесить входные данные по этим весам строк и столбцов и выполнить взвешенный биплот. В случае взвешенного биплота, чем больше вес, тем более влиятельным является этот ряд или этот столбец в отношении всех результатов - инерции и координат всех точек на главных осях.

Пользователь указывает вес строк и вес столбцов. Эти и те сначала нормализуются отдельно для суммирования в 1. Затем шаг нормализации , где и являются весами для строки i и столбца j , Точно нулевой вес обозначает пассивную строку или столбец. $\mathbf{Z_{ij} = X_{ij}}\sqrt{w_i w_j}$ $w_i$ $w_j$

В этот момент мы можем обнаружить, что классический биплот - это просто этот взвешенный биплот с равными весами для всех активных строк и равными весами для всех активных столбцов; и номера активных строк и активных столбцов. $1/r$ $1/c$ $r$ $c$

Выполните СВД из . Все операции такие же, как и в классическом биплоте, с той лишь разницей, что вместо и вместо . Стандартные координаты строки: и стандартные координаты столбца: . (Это для строк / столбцов с ненулевым весом. Оставьте значения как 0 для тех с нулевым весом и используйте приведенные ниже косвенные формулы для получения стандартных или любых других координат для них.) $\bf Z$ $w_i$ $1/r$ $w_j$ $1/c$ $\mathbf {U_{*i}=U_i}/\sqrt{w_i}$ $\mathbf {V_{*j}=V_j}/\sqrt{w_j}$

Присвойте инерции координаты в нужной вам пропорции (при и координаты будут полностью нестандартными или основными; при и они останутся стандартными). Строки: (прямой путь) = (косвенный путь). Столбцы: (прямой путь) = (косвенный путь). Матрицы в скобках здесь являются диагональными матрицами столбца и весами строк соответственно. Для пассивных точек (то есть с нулевыми весами) подходит только косвенный способ вычисления. Для активных (положительных весов) очков вы можете пойти в любую сторону. $p_1=1$ $p_2=1$ $p_1=0$ $p_2=0$ $\bf U_*S^{p1}$ $\bf X[Wj]V_*S^{p1-1}$ $\bf V_*S^{p2}$ $\bf ([Wi]X)'U_*S^{p2-1}$

СПС как частный случай Биплота вновь . При рассмотрении невзвешенного биплота ранее я упоминал, что PCA и биплот эквивалентны, единственное отличие состоит в том, что биплот рассматривает столбцы (переменные) данных как случайные случаи, симметрично наблюдениям (строкам). Расширив теперь биплот до более общего взвешенного биплота, мы можем еще раз потребовать его, заметив, что единственное отличие состоит в том, что (взвешенный) биплот нормализует сумму весов столбцов входных данных до 1, а (взвешенный) PCA - к числу ( активные колонки. Итак, здесь представлен взвешенный PCA . Его результаты пропорционально идентичны результатам взвешенного биплота. В частности, если $c$ это число активных столбцов, тогда справедливы следующие отношения для взвешенных и классических версий двух анализов:

собственные значения PCA = собственные значения биплота ; $\cdot c$
нагрузки = координаты столбца при «главной нормализации» столбцов;
стандартизированные оценки компонентов = координаты строк при «стандартной нормализации» строк;
собственные векторы PCA = координаты столбца при «стандартной нормализации» столбцов ; $/ \sqrt c$
Необработанные оценки компонентов = координаты строк в «основной нормализации» строк . $\cdot \sqrt c$

Анализ соответствия (модель хи-квадрат)

Технически это взвешенный биплот, где веса вычисляются из самой таблицы, а не предоставляются пользователем. Он используется в основном для анализа частотных кросс-таблиц. Этот биплот приблизит евклидовы расстояния на графике к расстоянию хи-квадрат в таблице. Расстояние хи-квадрат математически представляет собой евклидово расстояние, обратно пропорционально взвешенное по краевым суммам. Я не буду вдаваться в детали геометрии модели Хи-квадрат CA.

Предварительная обработка таблицы частот выглядит следующим образом: разделите каждую частоту на ожидаемую частоту, затем вычтите 1. Это то же самое, что сначала получить остаток частоты, а затем разделить на ожидаемую частоту. Установите веса строк на а веса столбцов на , где - предельная сумма строки i (только активные столбцы), - предельная сумма столбца j (только активные строки), - общая активная сумма таблицы (три числа взяты из начальной таблицы). $\bf X$ $w_i=R_i/N$ $w_j=C_j/N$ $R_i$ $C_j$ $N$

Затем сделать взвешенный biplot: (1) Нормализация в . (2) Веса никогда не равны нулю (ноль и не разрешены в CA); однако вы можете заставить строки / столбцы становиться пассивными, обнуляя их в , так что их веса не эффективны для SVD. (3) сделать свд. (4) Рассчитайте стандартные и инерционные координаты, как в взвешенном биплоте. $\bf X$ $\bf Z$ $R_i$ $C_j$ $\bf Z$

В модели Хи-квадрат CA, а также в евклидовой модели CA с использованием двустороннего центрирования одно последнее собственное значение всегда равно 0, поэтому максимально возможное число главных измерений равно . $\min(r-1,c-1)$

Смотрите также хороший обзор модели CA хи-квадрат в этом ответе .

иллюстрации

Вот некоторые данные таблицы.

 row     A     B     C     D     E     F
   1     6     8     6     2     9     9
   2     0     3     8     5     1     3
   3     2     3     9     2     4     7
   4     2     4     2     2     7     7
   5     6     9     9     3     9     6
   6     6     4     7     5     5     8
   7     7     9     6     6     4     8
   8     4     4     8     5     3     7
   9     4     6     7     3     3     7
  10     1     5     4     5     3     6
  11     1     5     6     4     8     3
  12     0     6     7     5     3     1
  13     6     9     6     3     5     4
  14     1     6     4     7     8     4
  15     1     1     5     2     4     3
  16     8     9     7     5     5     9
  17     2     7     1     3     4     4
  28     5     3     3     9     6     4
  19     6     7     6     2     9     6
  20    10     7     4     4     8     7

Далее следуют несколько двойных диаграмм рассеяния (в двух первых основных измерениях), построенных на анализе этих значений. Точки столбцов связаны с началом координат шипами для визуального акцентирования. В этих анализах не было пассивных строк или столбцов.

Первый биплот представляет собой результаты SVD таблицы данных, проанализированной «как есть»; координаты - собственные векторы строки и столбца.

введите описание изображения здесь

Ниже представлен один из возможных болтов от PCA . PCA был сделан на данных "как есть", без центрирования столбцов; однако, как это принято в PCA, нормализация по количеству строк (количеству случаев) была сделана изначально. Этот конкретный биплот отображает координаты главной строки (т. Е. Исходные оценки компонентов) и координаты главного столбца (т. Е. Переменные нагрузки).

введите описание изображения здесь

Далее следует biplot sensu stricto : таблица изначально была нормализована как по числу строк, так и по количеству столбцов. Принципиальная нормализация (распространение инерции) была использована для координат строки и столбца - как с PCA выше. Обратите внимание на сходство с биплотом PCA: единственное различие связано с различием в начальной нормализации.

введите описание изображения здесь

Модель анализа соответствия хи-квадрат . Таблица данных была предварительно обработана особым образом, она включала двустороннее центрирование и нормализацию с использованием предельных итогов. Это взвешенный биплот. Инерция распределялась по строке и координатам столбца симметрично - оба находятся на полпути между «основными» и «стандартными» координатами.

введите описание изображения здесь

Координаты отображаются на всех этих диаграммах рассеяния:

point      dim1_1   dim2_1   dim1_2   dim2_2   dim1_3   dim2_3   dim1_4   dim2_4
1            .290     .247   16.871    3.048    6.887    1.244    -.479    -.101
2            .141    -.509    8.222   -6.284    3.356   -2.565    1.460    -.413
3            .198    -.282   11.504   -3.486    4.696   -1.423     .414    -.820
4            .175     .178   10.156    2.202    4.146     .899    -.421     .339
5            .303     .045   17.610     .550    7.189     .224    -.171    -.090
6            .245    -.054   14.226    -.665    5.808    -.272    -.061    -.319
7            .280     .051   16.306     .631    6.657     .258    -.180    -.112
8            .218    -.248   12.688   -3.065    5.180   -1.251     .322    -.480
9            .216    -.105   12.557   -1.300    5.126    -.531     .036    -.533
10           .171    -.157    9.921   -1.934    4.050    -.789     .433     .187
11           .194    -.137   11.282   -1.689    4.606    -.690     .384     .535
12           .157    -.384    9.117   -4.746    3.722   -1.938    1.121     .304
13           .235     .099   13.676    1.219    5.583     .498    -.295    -.072
14           .210    -.105   12.228   -1.295    4.992    -.529     .399     .962
15           .115    -.163    6.677   -2.013    2.726    -.822     .517    -.227
16           .304     .103   17.656    1.269    7.208     .518    -.289    -.257
17           .151     .147    8.771    1.814    3.581     .741    -.316     .670
18           .198    -.026   11.509    -.324    4.699    -.132     .137     .776
19           .259     .213   15.058    2.631    6.147    1.074    -.459     .005
20           .278     .414   16.159    5.112    6.597    2.087    -.753     .040
A            .337     .534    4.387    1.475    4.387    1.475    -.865    -.289
B            .461     .156    5.998     .430    5.998     .430    -.127     .186
C            .441    -.666    5.741   -1.840    5.741   -1.840     .635    -.563
D            .306    -.394    3.976   -1.087    3.976   -1.087     .656     .571
E            .427     .289    5.556     .797    5.556     .797    -.230     .518
F            .451     .087    5.860     .240    5.860     .240    -.176    -.325

— ttnphns
источник

Интересный вопрос (+1), а также отличный и исчерпывающий ответ (+1). Тем не менее, ответ ИМХО остро нуждается в некоторой визуальной помощи, чтобы лучше понять всю эту великую математику.

— Александр Блех

Я добавил несколько примеров фотографий.

— ttnphns

Круто, спасибо! (Это не значит, что я все понимаю, но, по крайней мере, теперь у меня больше мотивации, чтобы попробовать :-).

— Александр Блех