Уменьшение размерности не всегда теряет информацию. В некоторых случаях возможно переразметить данные в пространствах меньшего размера, не отбрасывая никакой информации.
Предположим, у вас есть некоторые данные, где каждое измеренное значение связано с двумя упорядоченными ковариатами. Например, предположим, что вы измерили качество сигнала (обозначено цветом белый = хороший, черный = плохой) на плотной сетке из положений и относительно некоторого излучателя. В этом случае ваши данные могут выглядеть как левый график [* 1]:QИксY
Это, по крайней мере, внешне, двумерный фрагмент данных: . Тем не менее, мы можем знать априори (основываясь на базовой физике) или предположить, что это зависит только от расстояния от начала координат: r = . (Некоторый исследовательский анализ может также привести вас к такому выводу, если даже основное явление не совсем понято). Затем мы могли бы переписать наши данные как вместо , что эффективно уменьшило бы размерность до одного измерения. Очевидно, что это только без потерь, если данные радиально симметричны, но это разумное предположение для многих физических явлений.Q ( х , у)Икс2+ у2------√Q ( r )Q ( х , у)
Это преобразование является нелинейным (есть квадратный корень и два квадрата!), Поэтому оно несколько отличается от вида уменьшения размерности, выполняемого PCA, но я думаю, что это неплохо пример того, как вы можете иногда удалить измерение, не теряя никакой информации.Q ( х , у) → Q ( r )
В качестве другого примера, предположим, что вы выполняете разложение по особым значениям для некоторых данных (SVD является близким родственником - и часто основным анализом основных компонентов). SVD берет вашу матрицу данных и разбивает ее на три матрицы, так что . Столбцы U и V являются левые и правые сингулярные векторы, соответственно, которые образуют множество ортогональных базисов . Диагональные элементы (т. являются единичными значениями, которые фактически являются весами на м базисном наборе, образованном соответствующими столбцами и (остальная частьM = U S V T M S S i , i ) i U V S N x N N x N S U V M Q ( x , y )MM= USВTMSSя , я)яUVSэто нули). Само по себе это не дает вам уменьшения размерности (фактически, теперь есть 3 матрицы вместо одной матрицы вы начали). Однако иногда некоторые диагональные элементы равны нулю. Это означает, что соответствующие базы в и не нужны для восстановления , и поэтому их можно отбросить. Например, предположим, чтоNxNNxNSUVMQ(x,y)матрица выше содержит 10 000 элементов (т.е. это 100x100). Когда мы выполняем SVD на нем, мы обнаруживаем, что только одна пара сингулярных векторов имеет ненулевое значение [* 2], поэтому мы можем заново представить исходную матрицу как произведение двух векторов по 100 элементов (200 коэффициентов, но Вы можете сделать немного лучше [* 3]).
Для некоторых приложений мы знаем (или, по крайней мере, предполагаем), что полезная информация собирается основными компонентами с высокими единичными значениями (SVD) или нагрузками (PCA). В этих случаях мы могли бы отказаться от сингулярных векторов / оснований / главных компонентов с меньшими нагрузками, даже если они ненулевые, по теории, что они содержат раздражающий шум, а не полезный сигнал. Я иногда видел, как люди отклоняют определенные компоненты в зависимости от их формы (например, это напоминает известный источник аддитивного шума) независимо от нагрузки. Я не уверен, считаете ли вы это потерей информации или нет.
Есть некоторые точные результаты об информационно-теоретической оптимальности PCA. Если ваш сигнал гауссовский и искажен аддитивным гауссовским шумом, то PCA может максимизировать взаимную информацию между сигналом и его версией с уменьшенной размерностью (при условии, что шум имеет идентичную ковариационную структуру).
Примечания:
- Это глупая и абсолютно нефизическая модель. Сожалею!
- Из-за неточности с плавающей запятой некоторые из этих значений будут не совсем нулевыми.
- При дальнейшей проверке, в этом конкретном случае , два сингулярных вектора одинаковы и симметричны относительно их центра, поэтому мы могли бы фактически представить всю матрицу только с 50 коэффициентами. Обратите внимание, что первый шаг выпадает из процесса SVD автоматически; второе требует некоторого осмотра / прыжка веры. (Если вы хотите подумать об этом с точки зрения баллов PCA, матрица баллов - это просто из первоначальной декомпозиции SVD; применимы аналогичные аргументы в отношении нулей, не вносящих вклад вообще).US