В дополнение к ответам, которые уже сосредоточены на математических свойствах, я хотел бы прокомментировать с экспериментальной точки зрения.
Резюме: процессы генерации данных часто оптимизируются таким образом, чтобы данные подходили для регрессии главных компонент (PCR) или частичных наименьших квадратов (PLS).
Я аналитик-химик. Когда я разрабатываю эксперимент / метод для измерения (регрессии или классификации) чего-либо, я использую свои знания о применении и доступных инструментах, чтобы получить данные, которые несут хорошее отношение сигнал / шум по отношению к поставленной задаче. Это означает, что сгенерированные мной данные имеют большую ковариацию со свойством интереса.
Это приводит к структуре дисперсии, где интересная дисперсия велика, и более поздние ПК будут нести только (маленький) шум.
Я бы также предпочел методы, которые дают избыточную информацию о выполняемой задаче, чтобы получить более надежные или более точные результаты. PCA концентрирует избыточные измерительные каналы в одном ПК, который затем несет большие различия и поэтому является одним из первых ПК.
Если существуют известные конфликтующие факторы, которые приведут к большой дисперсии, которая не связана с интересующим свойством, я обычно стараюсь исправить их в максимально возможной степени во время предварительной обработки данных: во многих случаях эти идентификаторы известны физическая или химическая природа, и это знание предлагает соответствующие способы исправления для нарушителей. Например, я измеряю спектры комбинационного рассеяния под микроскопом. Их интенсивность зависит от интенсивности лазерного излучения, а также от того, насколько хорошо я могу сфокусировать микроскоп. Оба приводят к изменениям, которые могут быть исправлены путем нормализации, например, сигнала, который, как известно, является постоянным.
Таким образом, крупные поставщики отклонений, которые не вносят вклад в решение, могли быть исключены до того, как данные поступили в PCA, оставляя в основном значимые различия на первых ПК.
И последнее, но не менее важное: здесь есть немного самореализующегося пророчества: очевидно, что ПЦР делается с данными, в которых допущение о большой дисперсии, несущей информацию, имеет смысл. Если, например, я думаю, что могут быть важные препятствия, которые я не знаю, как исправить, я бы сразу пошел на PLS, который лучше игнорирует большие вклады, которые не помогают с задачей прогнозирования.