Начну с интуитивной демонстрации.
Я сгенерировал наблюдений (а) из сильно негауссовского 2D-распределения и (b) из 2D-гауссовского распределения. В обоих случаях я центрировал данные и выполнил разложение по сингулярным числам X = U S V ⊤ . Затем для каждого случая я составил график рассеяния первых двух столбцов U , один против другого. Обратите внимание, что обычно это столбцы U S , которые называются «основными компонентами» (ПК); столбцы U - это ПК, масштабируемые до единичной нормы; до сих пор, в этом ответе я сосредоточусь на столбцах U . Вот точечные диаграммы:n=100X=USV⊤UUSUU
Я думаю, что такие утверждения, как «компоненты PCA являются некоррелированными» или «компоненты PCA являются зависимыми / независимыми», обычно делаются относительно одной конкретной матрицы образцов и относятся к корреляциям / зависимостям между строками (см., Например , ответ @ ttnphns здесь ). PCA дает преобразованную матрицу данных U , где строки - наблюдения, а столбцы - переменные ПК. Т.е. мы можем рассмотреть U как образец и спросить, какова выборочная корреляция между переменными ПК. Эта выборочная корреляционная матрица, конечно, задается как U ⊤ U = IXUUU⊤U=IЭто означает, что выборочные корреляции между переменными ПК равны нулю. Это то, что люди имеют в виду, когда говорят, что «PCA диагонализирует ковариационную матрицу» и т. Д.
Вывод 1: в координатах PCA любые данные имеют нулевую корреляцию.
Это верно для обоих графиков рассеяния выше. Однако сразу очевидно, что две переменные ПК и y на левой (негауссовой) диаграмме рассеяния не являются независимыми; даже несмотря на то, что они имеют нулевую корреляцию, они сильно зависят и фактически связаны a y ≈ a ( x - b ) 2 . И действительно, общеизвестно, что некоррелированный не означает независимость .xyy≈a(x−b)2
Напротив, две переменные ПК и y на правой (гауссовой) диаграмме рассеяния кажутся «в значительной степени независимыми». Вычисление взаимной информации между ними (которая является мерой статистической зависимости: независимые переменные имеют нулевую взаимную информацию) любым стандартным алгоритмом даст значение, очень близкое к нулю. Это не будет точно ноль, потому что это никогда не будет точно ноль для любого конечного размера выборки (если не настроен точно); кроме того, существуют различные методы для вычисления взаимной информации двух образцов, дающие несколько разные ответы. Но мы можем ожидать, что любой метод даст оценку взаимной информации, которая очень близка к нулю.xy
Вывод 2: в координатах PCA гауссовы данные «в значительной степени независимы», что означает, что стандартные оценки зависимости будут около нуля.
Вопрос, однако, более сложный, о чем свидетельствует длинная цепочка комментариев. Действительно, @whuber справедливо указывает на то, что переменные PCA и y (столбцы U ) должны быть статистически зависимыми: столбцы должны иметь единичную длину и быть ортогональными, и это вводит зависимость. Например, если какое-либо значение в первом столбце равно 1 , то соответствующее значение во втором столбце должно быть 0 .xyU10
Это верно, но актуально только для очень маленьких , таких как, например, n = 3 (с n =nn=3 после центрирования есть только один ПК). Для любого разумного размера выборки, такого как n = 100, показанного на моем рисунке выше, эффект зависимости будет незначительным; столбцы U являются (масштабированными) проекциями гауссовых данных, поэтому они также являются гауссовыми, что делает практически невозможным, чтобы одно значение было близко к 1 (это потребовало бы, чтобы все остальные n - 1 элементов были близки к 0 , что вряд ли распределение Гаусса).n=2n=100U1n−10
Вывод 3: строго говоря, для любого конечного гауссовы данные в координатах PCA являются зависимыми; однако эта зависимость практически не имеет значения для любого n ≫ 1 .nn≫1
Мы можем уточнить это, рассмотрев, что происходит в пределе . В пределе бесконечного размера выборки ковариационная матрица выборки равна ковариационной матрице заселения Σ . Таким образом , если вектор данных X выборка из → Х ~ N ( 0 , Σ ) , то переменные являются ПК → Y = Λ - 1 / 2n→∞ΣXX⃗ ∼N(0,Σ) (где Λ и VY⃗ =Λ−1/2V⊤X⃗ /(n−1)ΛVявляются собственными значениями и собственными векторами ) и → Y ∼ N ( 0 , I / ( n - 1 ) ) . Т.е. переменные ПК происходят из многомерного гаусса с диагональной ковариацией. Но любой многомерный гауссов с диагональной ковариационной матрицей разлагается в произведение одномерных гауссианов, и это определение статистической независимости :ΣY⃗ ∼N(0,I/(n−1))
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
Вывод 4: асимптотически ( ) переменные PC гауссовых данных статистически независимы как случайные величины, и выборочная взаимная информация даст значение совокупности ноль.n→∞
Я должен отметить, что этот вопрос можно понять по-разному (см. Комментарии @whuber): рассмотреть всю матрицу случайной величиной (полученной из случайной матрицы X посредством определенной операции) и спросить, есть ли какие-либо два конкретных элемента U i J и U к л из двух разных столбцов статистически независимы в различных розыгрышах X . Мы исследовали этот вопрос в этой более поздней теме .UXUijUklX
Вот все четыре предварительных вывода сверху:
- В координатах PCA любые данные имеют нулевую корреляцию.
- В координатах PCA гауссовы данные «в значительной степени независимы», что означает, что стандартные оценки зависимости будут около нуля.
- nn≫1
- n→∞