PCA, ICA и лапласианские собственные карты

11

Вопрос

Я очень заинтересован в методе Лапласовых собственных карт. В настоящее время я использую его для уменьшения размеров моих медицинских данных.

Однако я столкнулся с проблемой при использовании метода.

Например, у меня есть некоторые данные (спектры сигналов), и я могу использовать PCA (или ICA) для получения некоторых ПК (или микросхем). Проблема в том, как получить аналогичные по размеру уменьшенные компоненты исходных данных с помощью LE?

Согласно методу лапласовских собственных карт нам нужно решить обобщенную проблему собственных значений, которая

$L y = \lambda D y$

Здесь - собственный вектор. Если я построю, например, верхние 3 собственных вектора (решение по 3 собственным значениям), результаты не будут интерпретироваться. $y$

Тем не менее, когда я строю 3 верхних ПК и 3 верхних, результаты всегда кажутся четко (визуально) отражающими исходные данные . $x$

Я предполагаю, что причина в том, что матрица определяется весовой матрицей (матрица смежности ), а данные были снабжены тепловым ядром для создания , который использует экспоненциальную функцию. Мой вопрос заключается в том, как извлечь приведенные компоненты (а не собственный вектор матрицы )? $L$ $W$ $x$ $W$ $x$ $y$ $L$

Данные

Мой набор данных ограничен и нелегко продемонстрировать проблему. Здесь я создал игрушечную задачу, чтобы показать, что я имел в виду и что хочу спросить.

Пожалуйста, смотрите картинку,

Сначала я создаю синусоидальные волны A, B, C, которые отображаются красными кривыми (первый столбец рисунка). A, B и C имеют 1000 выборок, другими словами, сохраненные в 1x1000 векторов.

Во-вторых, я смешал источники A, B, C, используя случайно созданные линейные комбинации, например, , в которых являются случайными значениями. Смешанный сигнал находится в очень высоком пространственном пространстве, например, , 1517 - произвольно выбранное большое пространственное пространство. Я показываю только первые три строки сигнала М зелеными кривыми (второй столбец рисунка). $M = r_1*A + r_2*B + r_3*C$ $r_1, r_2, r_3$ $M$ $M \in R^{1517\times1000}$

Затем я запускаю собственные карты PCA, ICA и Laplacian, чтобы получить результаты уменьшения размеров. Я решил использовать 3 ПК, 3 ИС и 3 LE, чтобы провести справедливое сравнение (синие кривые показывают соответственно 3-й, 4-й и последний столбец рисунка).

Из результатов PCA и ICA (3-й, 4-й столбец рисунка) видно, что мы можем интерпретировать результаты как некоторое уменьшение размера, т. Е. Для результатов ICA мы можем восстановить смешанный сигнал с помощью (я не уверен, сможем ли мы также получить с результатами PCA, но результат кажется мне вполне подходящим). $M = b_1*IC1 + b_2*IC2 + b_3*IC3$ $M = a_1*PC1 + a_2*PC2 + a_3*PC3$

Однако, пожалуйста, посмотрите на результаты LE, я едва могу интерпретировать результаты (последний столбец рисунка). Кажется, что-то не так с уменьшенными компонентами. Кроме того, я хочу упомянуть, что в конечном итоге график последнего столбца является собственным вектором в формуле $y$ $L y = \lambda D y$

У вас есть идеи?

Рисунок 1 с использованием 12 ближайших соседей и сигма в ядре нагрева составляет 0,5: Столбцы слева направо: исходный сигнал, смешанный сигнал, ПК, ИС, LE

Рисунок 2 с использованием 1000 ближайших соседей и сигма в ядре нагрева составляет 0,5: Столбцы слева направо: исходный сигнал, смешанный сигнал, ПК, ИС, LE

Исходный код : код Matlab с необходимым пакетом

pca ica

— Само Джером
источник

2

Что вы подразумеваете под уменьшенными компонентами х? Вы хотите сказать, низкоразмерное вложение x?

— катафалк

Это звучит интересно. Не могли бы вы дать более подробное описание того, как на самом деле выглядят ваши данные?

— Плацидия

4

Ответ на ваш вопрос задается отображением в нижней части страницы 6 оригинального лапласиане Eigenmaps бумаги :

$x_i \rightarrow (f_1(i), \dots, f_m(i))$

Так, например, вложение точки , скажем, в верхние 2 «компоненты» определяется как где и - собственные векторы, соответствующие двум наименьшим ненулевым собственным значениям из обобщенной задачи на собственные значения . $x_5$ $(f_1(5), f_2(5))$ $f_1$ $f_2$ $L f = \lambda D f$

Обратите внимание, что в отличие от PCA, это не просто получить вложение вне образца. Другими словами, вы можете получить вложение точки, которая уже учитывалась при вычислении , но не (легко), если это новая точка. Если вы заинтересованы в последнем, посмотрите эту статью . $L$

— Шантану
источник

Я немного озадачен тем, что вы рассматриваете в качестве переменных. Из того, что я понимаю, ваша матрица состоит из 1517 выборок из 1000-мерного пространства. Когда вы делаете PCA (или ICA) на этой матрице, вы можете довольно хорошо восстановить базовые способы изменения: например, в столбце 3 на ваших рисунках строки 1,2,3 соответствуют основаниям C, A, B соответственно. Это имеет смысл. Тем не менее, в вашем коде, когда вы выполняете LEM, вы вызываете функцию для ( ), что не согласуется с вышеизложенным.

M

$M$

M^{T}

$M^T$ mixedSignal'

— Шантану

Итак, во-первых, в матрице , каковы ваши переменные и каковы ваши наблюдения? Во-вторых, из вашего анализа выясняется, что вы ищете не только вложение с использованием LEM, но и эквивалент собственных векторов, как в PCA, верно? Вы не можете сделать это LEM, по крайней мере, не легко. Прочтите эту статью, чтобы понять, почему.

M

$M$

M

$M$

— Шантану

Если все, что вы ищете, это вложение, то это легко дается отображением . Посмотрите мой ответ для деталей. В вашем коде измените строку 47 и используйте вместо ее транспонирование; результат даст вам 3-мерное вложение ваших 1517 точек.

x_{i} \to (f_{1} (i), \dots, f_{m} (i))

$x_i \rightarrow (f_1(i), \dots, f_m(i))$ mixedSignalmappedX

— Шантану

PS: выше я имел в виду «Вы не можете сделать это с помощью LEM, по крайней мере, не легко».

— Шантану

2

Вот ссылка на веб-страницу курса профессора Троссета, а также он пишет книгу http://mypage.iu.edu/~mtrosset/Courses/675/notes.pdf, которая обновляется каждую неделю или около того. Также приведены R-функции для собственных лапласовых отображений. Просто попробуйте сами. Вы также можете рассмотреть эту статью Belkin

Спасибо Абхик Студент Профессора Троссет

— user4959
источник

1

В отличие от PCA-лапласовых собственных карт используются обобщенные собственные векторы, соответствующие наименьшим собственным значениям. Он пропускает собственный вектор с наименьшим собственным значением (может быть нулевым) и использует собственные векторы, соответствующие следующим нескольким наименьшим собственным значениям. PCA - это максимальное сохранение дисперсии с использованием матрицы ядра / грамма. Лапласовы собственные карты ставятся скорее как задача минимизации относительно комбинаторного графа лапласиана (см. Работы Троссета).

— катафалк
источник

Все заинтересованные, пожалуйста, посмотрите на мой вопрос еще раз. Я положил несколько примеров. Огромное спасибо.

— Само Джером