В этой SE много постов, в которых обсуждаются надежные подходы к анализу главных компонентов (PCA), но я не могу найти ни одного хорошего объяснения того, почему PCA в первую очередь чувствителен к выбросам.
В этой SE много постов, в которых обсуждаются надежные подходы к анализу главных компонентов (PCA), но я не могу найти ни одного хорошего объяснения того, почему PCA в первую очередь чувствителен к выбросам.
Ответы:
Одна из причин заключается в том, что PCA можно рассматривать как разложение данных низкого ранга, которое сводит к минимуму сумму норм остатков разложения. Т.е. , если представляет ваши данные ( векторы измерений), и представляет собой РСА базис ( векторы измерений), то разложение будет строго свести к минимуму
Поскольку PCA сводит к минимуму нормы (т.е. квадратичные нормы), у него возникают те же проблемы, что и для метода наименьших квадратов, или для гауссовской модели, поскольку они чувствительны к выбросам. Из-за возведения в квадрат отклонений от выбросов они будут доминировать в общей норме и, следовательно, будут управлять компонентами PCA.