Как именно разреженный PCA лучше, чем PCA?

24

Я узнал о PCA несколько лекций назад в классе, и, узнав больше об этой увлекательной концепции, я узнал о редких PCA.

Я хотел спросить, если я не ошибаюсь, это то, что является редким PCA: В PCA, если у вас есть точек данных с переменными, вы можете представить каждую точку данных в мерном пространстве перед применением PCA. После применения PCA вы можете снова представить его в том же пространстве измерений, но на этот раз первый главный компонент будет содержать наибольшее отклонение, второй будет содержать второе направление отклонения и т. Д. Таким образом, вы можете исключить несколько последних основных компонентов, так как они не приведут к большой потере данных и вы можете сжать данные. Правильно? $n$ $p$ $p$

Разреженный PCA выбирает главные компоненты так, чтобы эти компоненты содержали меньше ненулевых значений в своих векторных коэффициентах.

Как это должно помочь вам лучше интерпретировать данные? Кто-нибудь может привести пример?

machine-learning pca sparse

— GrowinMan
источник

Здравствуйте, @GrowinMan! Вы видели мой ответ на этот вопрос? Как вы думаете, это отвечает на это? Если нет, не стесняйтесь спрашивать какие-либо разъяснения, или, возможно, рассмотреть вопрос об изменении вашего вопроса, чтобы сделать его более точным. Если да, то подумайте о том, чтобы проголосовать и «принять» его, щелкнув зеленую галочку рядом. Я заметил, что у вас есть ноль голосов и ноль принятых тем здесь, на CrossValidated.

— говорит амеба: восстанови Монику

@amoeba Спасибо за указание на это. Я давно не заходил в систему, и я тоже немного не знаком с машинным обучением. Я обязательно прочитаю ваш ответ еще раз и

— отмечу

Нет проблем. Я случайно наткнулся на эту старую ветку и подумал о том, чтобы бросить вам очередь.

— говорит амеба, восстанови Монику

Здравствуйте, @GrowinMan! :-) Снова наткнулся на эту старую ветку. Если вы все еще чувствуете, что этот вопрос не решен, пожалуйста, не стесняйтесь спрашивать разъяснения. В противном случае рассмотрите возможность голосования и «принятия» одного из ответов, щелкнув зеленую галочку рядом. Я заметил, что у вас есть ноль голосов и ноль принятых тем здесь, на CrossValidated.

— говорит амеба: восстанови Монику

29

Вопрос о том, легче ли интерпретировать разреженный PCA, чем стандартный PCA, зависит от набора данных, который вы исследуете. Вот как я об этом думаю: иногда больше интересуются проекции PCA (низкоразмерное представление данных), а иногда - по основным осям; только в последнем случае разреженный PCA может иметь какие-либо преимущества для интерпретации. Позвольте мне привести пару примеров.

Я, например, работаю с нейронными данными (одновременные записи многих нейронов) и применяю методы PCA и / или связанные с ними уменьшения размерности, чтобы получить низкоразмерное представление активности нейронной популяции. У меня может быть 1000 нейронов (т.е. мои данные живут в 1000-мерном пространстве), и я хочу проецировать их на три ведущие главные оси. Что это за оси, для меня совершенно неважно, и я не собираюсь каким-либо образом «интерпретировать» эти оси. Что меня интересует, так это 3D-проекция (поскольку активность зависит от времени, я получаю траекторию в этом 3D-пространстве). Так что я в порядке, если каждая ось имеет все 1000 ненулевых коэффициентов.

С другой стороны, кто-то может работать с более «осязаемыми» данными, где отдельные измерения имеют очевидное значение (в отличие от отдельных нейронов выше). Например, набор данных о различных автомобилях, размеры которых варьируются от веса до цены. В этом случае, возможно, кто-то действительно заинтересован в ведущих главных осях, потому что кто-то может захотеть что-то сказать: посмотрите, первая главная ось соответствует «причудливости» автомобиля (я сейчас все это придумываю). Если проекция является разреженной, такие интерпретации, как правило, было бы легче дать, потому что многие переменные будут иметь коэффициентов и, следовательно, очевидно, не имеют значения для этой конкретной оси. В случае стандартного PCA обычно получают ненулевые коэффициенты для всех переменных. $0$

Вы можете найти больше примеров и некоторое обсуждение последнего случая в статье Sparse PCA 2006 года Zou et al. Разница между первым и последним случаем, однако, я не видел явно нигде обсуждавшимся (хотя, вероятно, так и было).

— амеба говорит восстановить монику
источник

3

Это было отличное объяснение. Другим примером ваших «осязаемых» данных может быть опрос со многими вопросами, и вы хотите знать, какие вопросы в опросе являются наиболее важными, и, возможно, некоторая их комбинация действительно задает одну тему.

— bdeonovic

1

Таким образом, вы можете исключить несколько последних основных компонентов, так как они не приведут к большой потере данных и вы можете сжать данные. Правильно?

Да, ты прав. И если имеется переменных , то у вас есть Основной компонент , и каждая переменная имеет информацию (вклад) в каждом ПК . $N$ $V_1, V_2, \cdots , V_N$ $N$ $PC_1, PC_2, \cdots , PC_N$ $V_i$ $PC_i$

В Sparse PCA есть без информации о некоторых переменных , переменных с нулевым коэффициентом. $PC_i$ $V_j, V_l, \cdots$

Затем, если в одной плоскости меньше переменных, чем ожидалось ( ), легче очистить линейные отношения между ними в этой плоскости. $(PC_i, PC_{j})$ $N$

— Leon-Alph
источник

Как!? Я не понимаю, как это было бы легко интерпретировать в этом случае, в отличие от того, когда главные компоненты не редки.

— GrowinMan

2

Я думаю об этом так: мы часто выполняем кластеризацию переменных перед ПК, чтобы сделать результаты более понятными. Sparse PC объединяет кластеризацию переменных и ПК в один этап, что требует меньше решений со стороны аналитика.

— Фрэнк Харрелл

1

Чтобы понять преимущества разреженности в PCA, вам необходимо убедиться, что вы знаете разницу между «загрузками» и «переменными» (для меня эти имена несколько произвольны, но это не важно).

Допустим, у вас есть матрица данных nxp X , где n - количество выборок. SVD X = USV ' , дает вам три матрицы. Объединение первых двух Z = US дает вам матрицу главных компонентов. Допустим, ваш приведенный ранг равен k , тогда Z равно nxk . Z - это, по сути, ваша матрица данных после уменьшения размера. Исторически,

Записи ваших основных компонентов (или Z = US ) называются переменными.

С другой стороны, V (то есть pxk ) содержит главные векторы загрузки, и его записи называются основными загрузками. Учитывая свойства PCA, легко показать, что Z = XV . Это значит, что:

Основные компоненты являются производным, используя основные нагрузки в качестве коэффициентов в линейной комбинации вашей матрицы данных X .

Теперь, когда эти определения находятся вне пути, мы будем смотреть на разреженность. Большинство статей (или, по крайней мере, большинство из тех, с которыми я сталкивался), обеспечивают разреженность основных загрузок (также известный как V ). Преимущество редкости заключается в том, что

разреженный V скажет нам, какие переменные (из исходного p- мерного пространства признаков) стоит сохранить. Это называется интерпретируемостью.

Существуют также интерпретации для обеспечения разреженности записей Z , которые, как я видел, люди называют «разреженная переменная PCA», но это гораздо менее популярно, и, честно говоря, я не особо задумывался об этом.

— idnavid
источник