Я пытаюсь получить интуитивное понимание того, как анализ главных компонентов (PCA) работает в предметном (двойном) пространстве .
Рассмотрим двумерный набор данных с двумя переменными, и , и точками данных (матрица данных имеет и предполагается, что она центрирована). Обычное представление PCA состоит в том, что мы рассматриваем точек в , записываем ковариационную матрицу и находим ее собственные векторы и собственные значения; первый ПК соответствует направлению максимальной дисперсии и т. д. Вот пример с ковариационной матрицей , Красные линии показывают собственные векторы, масштабированные квадратными корнями соответствующих собственных значений.
Теперь рассмотрим, что происходит в предметном пространстве (я узнал этот термин из @ttnphns), также известном как двойное пространство (термин, используемый в машинном обучении). Это мерное пространство, где выборки наших двух переменных (два столбца из X ) образуют два вектора x 1 и x 2 . Квадратная длина каждого переменного вектора равна его дисперсии, косинус угла между двумя векторами равен корреляции между ними. Это представление, кстати, очень стандартно при лечении множественной регрессии. В моем примере предметное пространство выглядит так (я показываю только 2D-плоскость, натянутую на два переменных вектора):
Главные компоненты, являющиеся линейными комбинациями двух переменных, образуют два вектора и p 2 в одной плоскости. Мой вопрос: каково геометрическое понимание / интуиция того, как формировать векторы переменных главных компонент, используя оригинальные векторы переменных на таком графике? Учитывая x 1 и x 2 , какая геометрическая процедура даст p 1 ?
Ниже мое текущее частичное понимание этого.
Прежде всего, я могу вычислить основные компоненты / оси с помощью стандартного метода и построить их на том же рисунке:
Кроме того, мы можем отметить, что выбрано таким, что сумма квадратов расстояний между x i (голубыми векторами) и их проекциями на p 1 минимальна; эти расстояния являются ошибками реконструкции и показаны черными пунктирными линиями. Эквивалентно, p 1 максимизирует сумму квадратов длин обеих проекций. Это полностью определяет p 1 и, конечно, полностью аналогично аналогичному описанию в основном пространстве (см. Анимацию в моем ответе «Осмысление анализа главных компонент, собственных векторов и собственных значений»). Смотрите также первую частьответа @ ttnphns'es здесь.
Тем не менее, это не достаточно геометрический! Это не говорит мне, как найти такой и не указывает его длину.
Я предполагаю, что , x 2 , p 1 и p 2 все лежат на одном эллипсе с центром в 0, где p 1 и p 2 являются его основными осями. Вот как это выглядит в моем примере:
Q1: как доказать это? Прямая алгебраическая демонстрация кажется очень утомительной; как увидеть, что это должно быть так?
Но есть много разных эллипсов с центром в и проходящих через x 1 и x 2 :
Q2: Что определяет «правильный» эллипс? Моим первым предположением было, что это эллипс с максимально длинной главной осью; но это кажется неправильным (есть эллипсы с главной осью любой длины).
Если есть ответы на вопросы Q1 и Q2, я также хотел бы знать, обобщаются ли они на случай более двух переменных.
variable space (I borrowed this term from ttnphns)
- @amoeba, вы должны ошибаться. Переменные как векторы в (изначально) n-мерном пространстве называются предметным пространством (n предметов как оси «определяют» пространство, в то время как p-переменные «охватывают» его). Переменное пространство , наоборот, наоборот - то есть обычный график рассеяния. Так устанавливается терминология в многомерной статистике. (Если в машинном обучении все по-другому - я этого не знаю, - тогда это гораздо хуже для учащихся.)
My guess is that x1, x2, p1, p2 all lie on one ellipse
Какая здесь может быть эвристическая помощь от эллипса? Я в этом сомневаюсь.