Почему существует только


22

В PCA, когда число измерений больше (или даже равно) количеству выборок N , почему у вас будет не более N - 1 ненулевых собственных векторов? Другими словами, ранг ковариационной матрицы среди измерений d N равен N - 1 .dNN1dNN1

Пример: ваши образцы - это векторизованные изображения размером , но у вас есть только N = 10 изображений.d=640×480=307200N=10


5
Вообразите точки в 2D или в 3D. Какова размерность многообразия, которое занимают эти точки? Ответ N - 1 = 1 : две точки всегда лежат на прямой (и линия является одномерной). Точная размерность пространства не имеет значения (если оно больше N ), ваши точки занимают только одномерное подпространство. Таким образом, дисперсия «распространяется» только в этом подпространстве, то есть вдоль 1 измерения. Это верно для любого N . N=2N1=1NN
говорит амеба, восстанови Монику

1
Я бы добавил дополнительную точность в комментарий @ amoeba. Точка происхождения также имеет значение. Таким образом, если у вас есть N = 2 + начало координат, количество измерений максимально 2 (не 1). Однако, в PCA мы обычно центр данных, что означает , что мы кладем начало внутри пространства облака данных - то один аспект получает потребляются и ответ будет «N-1», как показано на амеба.
ttnphns

Это то, что смущает меня. Это не центрирование само по себе, которое разрушает измерение, верно? Если у вас ровно N выборок и N измерений, то даже после центрирования у вас все еще есть N собственных векторов ..?
GrokingPCA

2
Зачем? Именно центрирование разрушает одно измерение. Центрирование (по среднему арифметическому) «перемещает» начало координат «извне» в пространство, «охватываемое» данными. С примером N = 2. 2 очка + некоторое происхождение обычно охватывают плоскость. Центрируя эти данные, вы помещаете начало координат на прямую линию на полпути между двумя точками. Итак, данные теперь охватывают только строку.
ttnphns

3
Евклид уже знал это 2300 лет назад: две точки определяют линию, три точки определяют плоскость. Обобщая, точек определяют N - 1- мерное евклидово пространство . NN1
whuber

Ответы:


20

Посмотрите, что делает PCA. Проще говоря, PCA (как обычно выполняется) создает новую систему координат:

  1. смещение источника в центр тяжести ваших данных,
  2. сжимает и / или растягивает оси, чтобы сделать их равными по длине, и
  3. поворачивает ваши оси в новую ориентацию.

(Для получения дополнительной информации см. Этот превосходный поток резюме: имеет смысл анализа главных компонентов, собственных векторов и собственных значений .) Однако, он не просто вращает ваши оси каким-либо старым способом. Ваш новый (первый основной компонент) ориентирован в направлении максимальных изменений ваших данных. Второй главный компонент ориентирован в направлении следующего наибольшего количества вариаций , которое ортогонально первому главному компоненту . Остальные основные компоненты формируются аналогичным образом. X1


X=[111222]

введите описание изображения здесь

(1.5,1.5,1.5)(0,0,0)(3,3,3)(0,0,3)(3,3,0)(0,3,0)(3,0,3)

N=2N1=1

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.