Какая интуиция стоит за СВД?

Я читал о разложении сингулярных значений (SVD). Почти во всех учебниках упоминается, что она разбивает матрицу на три матрицы с заданной спецификацией.

Но какова интуиция, лежащая в основе разделения матрицы в такой форме? PCA и другие алгоритмы уменьшения размерности интуитивно понятны в том смысле, что алгоритм обладает хорошим свойством визуализации, но с SVD это не так.

— ШАШАНК ГУПТА
источник

Возможно, вы захотите начать с интуиции разложения по собственному значению на собственный вектор, поскольку SVD является его расширением для всех видов матриц, а не только для квадратных.

— JohnK

В интернете есть множество заметок и ответов на вопросы о СВД и его работе.

— Владислав Довгальец

SVD можно рассматривать как алгоритм сжатия / обучения. Это линейный компрессор-декомпрессор. Матрица M может быть представлена умножением SVD. S - компрессор. V определяет, какую ошибку вы хотели бы иметь (сжатие с потерями), а D - декомпрессор. Если вы сохраняете все диагональные значения V, то у вас есть компрессор без потерь. Если вы начнете отбрасывать небольшие сингулярные значения (обнулять их), то вы не сможете восстановить исходную матрицу точно, но все равно будете близки. Здесь термин близкий измеряется по норме Фробениуса.

— Кагдас Озгенц

@Cagdas, если вы сделаете это, пожалуйста, тщательно определите, что вы принимаете "S", "V" и "D", чтобы быть математически. Я не видел инициалов, перегруженных в самой нотации ранее (в которой, к примеру, есть особые значения?). Кажется, это может быть источником путаницы,

— Glen_b

Знаете ли вы, как оценить PCA с SVD? Если да, то можете ли вы объяснить, почему вы чувствуете, что чего-то не хватает в вашем понимании SVD? Смотрите это

— Аксакал

Ответы:

Запишите SVD матрицы (вещественное, ) как где - , - диагональ а - . В терминах столбцов матриц и мы можем записать $X$ $n\times p$

X = U D V^{T}

$X = U D V^T$

U

$U$

n \times p

$n\times p$

D

$D$

p \times p

$p\times p$

V^{T}

$V^T$

p \times p

$p\times p$

U

$U$

V

$V$

X = \sum_{i = 1}^{p} d_{i} u_{i} v_{i}^{T}

$X=\sum_{i=1}^p d_i u_i v_i^T$ , Это показывает, что

записано в виде суммы

рангов-1 матриц. Как выглядит матрица ранга 1? Давайте посмотрим:

Строки пропорциональны, а столбцы пропорциональны.

X

$X$

p

$p$

(\begin{matrix} 1 \\ 2 \\ 3 \end{matrix}) (\begin{matrix} 4 & 5 & 6 \end{matrix}) = (\begin{matrix} 4 & 5 & 6 \\ 8 & 10 & 12 \\ 12 & 15 & 18 \end{matrix})

$\begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix} \begin{pmatrix} 4 & 5 & 6 \end{pmatrix} = \begin{pmatrix} 4 & 5 & 6 \\ 8 & 10 & 12 \\ 12 & 15 & 18 \end{pmatrix}$

Теперь представьте, что содержит значения черно-белого изображения в оттенках серого, каждая запись в матрице представляет один пиксель. Например, следующая картина бабуина: $X$

Затем прочитайте это изображение в R и получите матричную часть полученной структуры, возможно, используя библиотеку pixmap.

Если вы хотите получить пошаговое руководство по воспроизведению результатов, вы можете найти код здесь .

Рассчитаем СВД:

baboon.svd  <-  svd(bab) # May take some time

$512 \times 512$ $512$ $512$ $1$ $20$

baboon.1  <-  sweep(baboon.svd$u[,1,drop=FALSE],2,baboon.svd$d[1],"*") %*%
                   t(baboon.svd$v[,1,drop=FALSE])

baboon.20 <-  sweep(baboon.svd$u[,1:20,drop=FALSE],2,baboon.svd$d[1:20],"*") %*%
                   t(baboon.svd$v[,1:20,drop=FALSE])

в результате чего получаются следующие два изображения:

Слева мы можем легко увидеть вертикальные / горизонтальные полосы на изображении ранга 1.

$20$

Что довольно интересно: мы видим части исходного изображения, которые трудно представить как суперпозицию вертикальных / горизонтальных линий, в основном волосы диагонального носа и некоторую текстуру, а также глаза!

— Къетил б Халворсен
источник

Я думаю, что вы имели в виду реконструкцию низкого ранга, а не низкого диапазона. Неважно. Это очень хорошая иллюстрация (+1). Вот почему это линейный компрессор-декомпрессор. Изображение аппроксимируется линиями. Если вы на самом деле выполняете аналогичный авто-кодер с нейронной сетью с функциями линейной активации, вы фактически увидите, что он также допускает линии с любым наклоном, а не только вертикальные и горизонтальные линии, что делает его немного более мощным, чем SVD.

— Кагдас Озгенц

X = U Σ V^{*}

$X = U \Sigma V^*$

n \times p

$n \times p$

X

$X$

U

$U$

n \times n

$n \times n$

Σ

$\Sigma$

n \times p

$n \times p$

V

$V$

p \times p

$p \times p$

См. Math.stackexchange.com/questions/92171/… для других примеров

— kjetil b halvorsen

@ kjetil-b-halvorsen Мне интересно знать, как изменится расшифровка, если бы я использовал PCA для отклонения заявки. Буду признателен, если вы ответите на мой вопрос здесь stats.stackexchange.com/questions/412123/…

— Кумар

@CowboyTrader интересное наблюдение. Мое понимание машинного обучения / нейронной сети довольно ограничено. Итак, я не понимаю, что если у кого-то будет один шумный образ и больше нечего тренироваться, как будет работать нейронная сеть?

— Душянт Кумар

$A$ $m \times n$ $m \geq n$ $v$ $A$

\begin{aligned} (1) & v_{1} = & \arg max_{v \in R^{n}} ‖ A v ‖_{2} \\ subject to ‖ v ‖_{2} = 1. \end{aligned}

$\begin{align} \tag{1}v_1 = \,\,& \arg \max_{v \in \mathbb R^n} \quad \| A v \|_2 \\ & \text{subject to } \, \|v\|_2 = 1. \end{align}$

v_{1}

$v_1$

A

$A$

\begin{aligned} v_{2} = & \arg max_{v \in R^{n}} ‖ A v ‖_{2} \\ subject to ⟨ v_{1}, v ⟩ = 0, \\ ‖ v ‖_{2} = 1. \end{aligned}

$\begin{align} v_2 = \,\,& \arg \max_{v \in \mathbb R^n} \quad \| A v \|_2 \\ & \text{subject to } \,\langle v_1, v \rangle = 0, \\ & \qquad \qquad \, \, \, \, \|v\|_2 = 1. \end{align}$

v_{1}, \dots, v_{n}

$v_1, \ldots, v_n$

R^{n}

$\mathbb R^n$

R^{n}

$\mathbb R^n$

A

$A$

Пусть (поэтому количественно определяет взрывную силу в направлении ). Предположим, что единичные векторы определены так, что Уравнения (2) могут быть кратко выражены с использованием матричной записи в виде где - матрица , й столбец которой равен , - матрица чья столбец и $\sigma_i = \|A v_i \|_2$ $\sigma_i$ $A$ $v_i$ $u_i$

\begin{matrix} (2) & A v_{i} = σ_{i} u_{i} for i = 1, \dots, n . \end{matrix}

$\tag{2} A v_i = \sigma_i u_i \quad \text{for } i = 1, \ldots, n.$

\begin{matrix} (3) & A V = U Σ, \end{matrix}

$\tag{3} A V = U \Sigma,$

V

$V$

n \times n

$n \times n$

i

$i$

v_{i}

$v_i$

U

$U$

m \times n

$m \times n$

i

$i$

u_{i}

$u_i$

Σ

$\Sigma$ это диагональная матрица, й диагональный элемент которой равен . Матрица ортогональна, поэтому мы можем умножить обе части (3) на чтобы получить Может показаться, что теперь мы вывели SVD из с почти нулевым усилием. Ни один из шагов до сих пор не был сложным. Однако важная часть картины отсутствует - мы еще не знаем, что ортогонально.

n \times n

$n \times n$

i

$i$

σ_{i}

$\sigma_i$

V

$V$

V^{T}

$V^T$

A = U Σ V^{T} .

$A = U \Sigma V^T.$

A

$A$

U

$U$

Вот ключевой факт, отсутствующий фрагмент: оказывается, что ортогонален : Я утверждаю, что если это не так, то не будет оптимальным для задачи (1). Действительно, если бы (4) не было выполнено, то можно было бы улучшить , немного его возмутив в направлении . $A v_1$ $A v_2$

\begin{matrix} (4) & ⟨ A v_{1}, A v_{2} ⟩ = 0. \end{matrix}

$\tag{4} \langle A v_1, A v_2 \rangle = 0.$ $v_1$

v_{1}

$v_1$

v_{2}

$v_2$

Предположим (для противоречия), что (4) не выполняется. Если слегка возмущается в ортогональном направлении , норма не изменяется (или, по крайней мере, изменение нормы незначительно). Когда я иду по поверхности земли, мое расстояние от центра Земли не меняется. Однако, когда возмущается в направлении , вектор возмущается в неортогональном направлении , и поэтому изменение нормы является пренебрежимо малым . Норма $v_1$ $v_2$ $v_1$ $v_1$ $v_1$ $v_2$ $A v_1$ $A v_2$ $A v_1$ $A v_1$ может быть увеличено на незначительную сумму. Это означает, что не является оптимальным для задачи (1), что противоречит. Мне нравится этот аргумент, потому что: 1) интуиция очень ясна; 2) интуиция может быть преобразована непосредственно в строгое доказательство. $v_1$

Аналогичный аргумент показывает, что является ортогональным как к и к , и так далее. Векторы попарно ортогональны. Это означает, что единичные векторы могут быть выбраны попарно ортогональными, что означает, что матрица выше является ортогональной матрицей. Это завершает наше открытие СВД. $A v_3$ $A v_1$ $A v_2$ $A v_1, \ldots, A v_n$ $u_1, \ldots, u_n$ $U$

Чтобы преобразовать приведенный выше интуитивный аргумент в строгое доказательство, мы должны учитывать тот факт, что если возмущен в направлении , возмущенный вектор действительно не является единичным вектором. (Его норма .) Чтобы получить строгое доказательство, определите Вектор действительно является единичным вектором. Но, как вы можете легко показать, если (4) не выполняется, то для достаточно малых значений имеем (при условии, что знак $v_1$ $v_2$

{\tilde{v}}_{1} = v_{1} + ϵ v_{2}

$\tilde v_1 = v_1 + \epsilon v_2$

\sqrt{1 + ϵ^{2}}

$\sqrt{1 + \epsilon^2}$

{\bar{v}}_{1} (ϵ) = \sqrt{1 - ϵ^{2}} v_{1} + ϵ v_{2} .

$\bar v_1(\epsilon) = \sqrt{1 - \epsilon^2} v_1 + \epsilon v_2.$

{\bar{v}}_{1} (ϵ)

$\bar v_1(\epsilon)$

ϵ

$\epsilon$

f (ϵ) = ‖ A {\bar{v}}_{1} (ϵ) ‖_{2}^{2} > ‖ A v_{1} ‖_{2}^{2}

$f(\epsilon) = \| A \bar v_1(\epsilon) \|_2^2 > \| A v_1 \|_2^2$

ϵ

$\epsilon$ выбран правильно). Чтобы показать это, просто проверьте, что . Это означает, что не является оптимальным для задачи (1), что противоречит.

f^{'} (0) \neq 0

$f'(0) \neq 0$

v_{1}

$v_1$

(Кстати, я рекомендую прочитать объяснение Qiaochu Юаня из СВДА здесь . В частности, обратите внимание на «Key лемме # 1», которая является то , что мы обсуждали выше. Как Qiaochu говорит, ключевая лемму # 1 является «техническим сердцем разложения по сингулярным числам ".)

— littleO
источник

Чувак, потрать час своего дня и посмотри эту лекцию: https://www.youtube.com/watch?v=EokL7E6o1AE

Этот парень очень прямолинеен, важно не пропускать ничего из этого, потому что в конце концов все сводится вместе. Даже если вначале это может показаться немного медленным, он пытается определить критическую точку, что он и делает!

Я подведу итог для вас, вместо того, чтобы просто дать вам три матрицы, которые все делают (потому что это сбивало меня с толку, когда я читал другие описания). Откуда взялись эти матрицы и почему мы так настроили их? Лекция прибивает это! Каждая матрица (когда-либо существовавшая в истории вечности) может быть построена из базовой матрицы с одинаковыми размерами, затем повернуть ее и растянуть (это основная теорема линейной алгебры). Каждая из этих трех матриц, которые бросают люди, представляет собой исходную матрицу (U), матрицу масштабирования (сигма) и матрицу вращения (V).

Матрица масштабирования показывает, какие векторы вращения являются доминирующими, они называются сингулярными значениями. Разложение является решающим для U, сигма и V.

— Тим Джонсен
источник