То, что понимается под дисперсией в нескольких измерениях («общая дисперсия»), является просто суммой дисперсий в каждом измерении. Математически это след ковариационной матрицы: след просто сумма всех диагональных элементов. Это определение имеет различные приятные свойства, например, трасса инвариантна относительно линейных ортогональных преобразований, что означает, что если вы поворачиваете свои оси координат, общая дисперсия остается неизменной.
В книге Бишопа (раздел 12.1.1) доказано, что ведущий собственный вектор ковариационной матрицы задает направление максимальной дисперсии. Второй собственный вектор задает направление максимальной дисперсии при дополнительном ограничении на то, что он должен быть ортогональным первому собственному вектору и т. Д. (Я считаю, что это составляет упражнение 12.1). Если цель состоит в том, чтобы максимизировать общую дисперсию в двумерном подпространстве, то эта процедура является жадной максимизацией: сначала выберите одну ось, которая максимизирует дисперсию, а затем другую.
Ваш вопрос: почему эта жадная процедура получает глобальный максимум?
Вот хороший аргумент, который @whuber предложил в комментариях. Давайте сначала совместим систему координат с осями PCA. Ковариационная матрица становится диагональной: . Для простоты рассмотрим тот же 2D-случай, т. Е. Что такое плоскость с максимальной полной дисперсией? Мы хотим доказать, что это плоскость, заданная первыми двумя базисными векторами (с полной дисперсией ).Σ=diag(λi)λ1+λ2
Рассмотрим плоскость, натянутую на два ортогональных вектора и . Общая дисперсия в этой плоскости равнаТаким образом, это линейная комбинация собственных значений с коэффициентами, которые все положительны, не превышают (см. Ниже) и суммируют до . Если это так, то почти очевидно, что максимум достигается в .uv
u⊤Σu+v⊤Σv=∑λiu2i+∑λiv2i=∑λi(u2i+v2i).
λi12λ1+λ2
Осталось только показать, что коэффициенты не могут превышать . Обратите внимание, что , где является в -го базисного вектора. Эта величина является квадратом длины проекции на плоскость, натянутую на и . Поэтому он должен быть меньше квадрата длины который равен , QED.1u2k+v2k=(u⋅k)2+(v⋅k)2kkkuvk|k|2=1
См. Также ответ @ cardinal на Какова целевая функция PCA? (следует той же логике).