Алгоритм PCA может быть сформулирован в терминах корреляционной матрицы (предположим, что данные уже нормализованы, и мы рассматриваем только проекцию на первый ПК). Целевая функция может быть записана как:
Это хорошо, и мы используем множители Лагранжа, чтобы решить это, то есть переписать это как:
что эквивалентно
и, следовательно, ( см. здесь, в Mathworld ) кажется равным
Но это говорит о том, чтобы максимизировать расстояние между точкой и линией, и из того, что я прочитал здесь , это неверно - оно должно быть , а не . Где моя ошибка?
Или кто-то может показать мне связь между максимизацией дисперсии в проецируемом пространстве и минимизацией расстояния между точкой и линией?