Свойства PCA для зависимых наблюдений

Обычно мы используем PCA как метод уменьшения размерности для данных, где предполагается, что случаи

Вопрос: Каковы типичные нюансы в применении PCA для зависимых, неидеальных данных? Какие полезные / полезные свойства PCA для данных iid скомпрометированы (или полностью потеряны)?

Например, данные могут быть многомерным временным рядом, и в этом случае можно ожидать автокорреляции или авторегрессионной условной гетероскедастичности (ARCH).

Ранее было задано несколько связанных вопросов о применении PCA к данным временных рядов, например, 1 , 2 , 3 , 4 , но я ищу более общий и исчерпывающий ответ (без необходимости подробно останавливаться на каждом отдельном пункте).

Редактировать: Как отмечает @ttnphns, сам PCA не является логическим анализом. Тем не менее, кто-то может быть заинтересован в обобщении производительности PCA, то есть сосредоточиться на популяции аналог выборки PCA. Например, как написано в Надлер (2008) :

Предполагая, что данные представляют собой конечную и случайную выборку из (обычно неизвестного) распределения, интересным теоретическим и практическим вопросом является связь между результатами выборки PCA, вычисленными по конечным данным, и результатами базовой модели населения.

Ссылки:

Надлер, Вооз. «Результаты аппроксимации конечной выборки для анализа главных компонент: матричный подход к возмущению». Летопись статистики (2008): 2791-2817.

— Ричард Харди
источник

Просто для заметки. Сам PCA не является логическим анализом. Это преобразование многомерного набора данных чисел; его ядро - просто svd или собственное разложение. Поэтому он не делает предположения о независимости наблюдения. Предположения возникают, когда мы используем PCA в качестве статистического инструмента для анализа выборок из популяций. Но они не являются предположениями PCA. Например, тестирование на сферичность, чтобы решить, является ли PCA обоснованным для уменьшения данных, требует независимости, и тест может выглядеть так, как будто это допущение теста «в пределах PCA», но на самом деле это тест «снаружи».

— ttnphns

@ttnphns, очень хорошие моменты, спасибо. Если вы видите аккуратный способ редактировать мой пост, не стесняйтесь. Я тоже подумаю об этом.

— Ричард Харди

Ричард, твой вопрос в порядке и важен (+1). Просто, может быть, я бы лучше перефразировал это немного так, как «Мы обычно используем PCA как уменьшение размерности для данных, где предполагаются случаи ... Каковы типичные нюансы в применении PCA для данных временных рядов, где случаи (время баллы) являются лаг-взаимозависимыми ...?

— ttnphns

@amoeba, верно. Но мы вряд ли когда-нибудь остановимся на получении загрузок ПК. На шагах, которые обычно следуют за PCA, что мы должны знать под non-iid'ness? Я надеюсь, что ответ может быть лучше, чем вопрос (в его нынешней формулировке). Если вы смотрите на это свободно / творчески, возможно, вы могли бы придумать некоторые хорошие моменты.

— Ричард Харди

Обычный PCA учитывает только «горизонтальные» ассоциации (то есть между столбцами) и игнорирует «вертикальные» (между случаями): ковариационная матрица столбцов одинакова, если вы перемешиваете порядок случаев. Вопрос о том, можно ли это назвать «без допущений для последовательных отношений дел» или «с допущениями для независимых дел», остается вопросом вкуса. Предположение iid является значением по умолчанию при анализе данных, и поэтому методы, которые просто не обращают особого внимания на порядок дел, как PCA, могут быть вменены в «безмолвную поддержку» для предположения iid.

— ttnphns

Предположительно, вы могли бы добавить временную составляющую в качестве дополнительной функции к выбранным точкам, и теперь они iid? В основном исходные точки данных являются условными по времени:

п ({Икс}_{я} | T_{я}) \neq п ({Икс}_{я})

$p(\mathbf{x}_i \mid t_i) \ne p(\mathbf{x}_i)$

Но если мы определим , то имеем: $\mathbf{x}_i' = \{\mathbf{x}_i, t_i\}$

п ({Икс}_{я}^{'} | T_{я}) знак равно п ({Икс}_{я}^{'})

$p(\mathbf{x}'_i \mid t_i) = p(\mathbf{x}'_i)$

... и образцы данных теперь взаимно независимы.

На практике, путем включения времени в качестве элемента в каждую точку данных, PCA может иметь в результате то, что один компонент просто указывает вдоль оси объекта времени. Но если какие-либо функции связаны с функцией времени, компонент может состоять из одной или нескольких из этих функций, а также функции времени.

— Хью Перкинс
источник

Спасибо за ответ. Это был бы особый случай, когда время входит линейно. Более распространенным явлением является, например, автокорреляция, когда само время не играет роли как особенность.

— Ричард Харди

x_{t}

$x_t$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

x_{t}

$x_t$

x_{t - 1}

$x_{t-1}$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

x_{t - 1}

$x_{t-1}$