Объясните шаги алгоритма LLE (локальное линейное вложение)?

Я понимаю, что основной принцип, лежащий в основе алгоритма LLE, состоит из трех этапов.

Нахождение окрестности каждой точки данных по некоторой метрике, такой как k-nn.
Найти веса для каждого соседа, которые обозначают влияние, которое сосед оказывает на точку данных.
Построить низкоразмерное вложение данных на основе вычисленных весов.

Но математическое объяснение шагов 2 и 3 сбивает с толку все учебники и онлайн-ресурсы, которые я читал. Я не могу объяснить, почему формулы используются.

Как эти шаги выполняются на практике? Есть ли интуитивно понятный способ объяснения используемых математических формул?

Ссылки: http://www.cs.nyu.edu/~roweis/lle/publications.html

— User1234321232
источник

Локальное линейное вложение (LLE) устраняет необходимость оценивать расстояние между удаленными объектами и восстанавливает глобальную нелинейную структуру с помощью локальных линейных подгонок. LLE является выгодным, потому что в нем нет таких параметров, как скорость обучения или критерии конвергенции. LLE также хорошо масштабируется с внутренней размерностью $\mathbf{Y}$ . Целевая функция для LLE:

ζ (Y) = (Y - W Y)^{2} = Y^{⊤} (I - W)^{⊤} (I - W) Y

$\begin{equation} \zeta(\mathbf{Y})=(\mathbf{Y}- \mathbf{WY})^2\\ \quad \quad \quad \quad \quad\quad \quad = \mathbf{Y}^\top (\mathbf{I}-\mathbf{W})^\top (\mathbf{I}-\mathbf{W})\mathbf{Y} \end{equation}$ весовой матрицы

W

$\mathbf{W}$ элементов

w_{i j}

$w_{ij}$ для объектов

i

$i$ и

j

$j$ устанавливаются в нольесли

j

$j$ не является ближайшим соседом

i

$i$ ,противном случае, весов для K- ближайшие соседи объекта

i

$i$ определяются по методу наименьших квадратов

U = G β

$\begin{equation} \mathbf{U}=\mathbf{G}\boldsymbol{\beta} \end{equation}$ где зависимая переменнаяявляетсявектором единиц,

U

$\mathbf{U}$

K \times 1

$K \times 1$

G

$\mathbf{G}$ является матрицей Грама для всех ближайших соседей объекта , а - вектором весов которые следуют ограничениям суммы на единицу. Пусть - симметричная положительная полуопределенная матрица расстояний для всех пар K-ближайших соседей -мерного объекта . Можно показать, что равен двухцентровой матрице расстояний с элементами

K \times K

$K \times K$

i

$i$

β

$\boldsymbol{\beta}$

K \times 1

$K \times 1$

D

$\mathbf{D}$

K \times K

$K \times K$

p

$p$

x_{i}

$\mathbf{x}_i$

G

$\mathbf{G}$

τ

$\boldsymbol{\tau}$

τ_{l m} = - \frac{1}{2} (d_{l m}^{2} - \frac{1}{K} \sum_{l} d_{l m}^{2} - \frac{1}{K} \sum_{m} d_{l m}^{2} + \sum_{l} \sum_{m} d_{l m}^{2}) .

$\begin{equation} \tau_{lm}=-\frac{1}{2} \left( d_{lm}^2 - \frac{1}{K}\sum_l d_{lm}^2 - \frac{1}{K}\sum_m d_{lm}^2 + \sum_l\sum_m d_{lm}^2 \right). \end{equation}$

Коэффициенты регрессии определяются численно с использованием и проверены чтобы подтвердить, что они сводятся к единству. Значения встроены в ряд из на различных позициях столбцов , соответствующих K-ближайших соседей объекта

K

$K$

\underset{K \times 1}{β} = {\underset{K \times K}{(τ^{⊤} τ)}}^{- 1} \underset{K \times 1}{τ^{⊤} U},

$\begin{equation} \underset{K \times 1}{\boldsymbol{\beta}}=\underset{K \times K}{(\boldsymbol{\tau}^\top \boldsymbol{\tau})}^{-1}\underset{K \times 1}{\boldsymbol{\tau}^\top\mathbf{U}}, \end{equation}$

β

$\boldsymbol{\beta}$

i

$i$

W

$\mathbf{W}$

i

$i$ , а также транспонировать элементы. Это повторяется для каждого го объекта в наборе данных. Следует отметить, что если число ближайших соседей слишком мало, то может быть разреженным, что затрудняет собственный анализ. Было обнаружено, что ближайших соседей приводят к матрицам которые не содержат патологий во время собственного анализа. Целевая функция минимизируется путем нахождения наименьших ненулевых собственных значений Сокращенная форма представлена

i

$i$

K

$K$

W

$\mathbf{W}$

K = 9

$K=9$

W

$\mathbf{W}$

(I - W)^{⊤} (I - W) E = Λ D E .

$\begin{equation} (\mathbf{I}-\mathbf{W})^\top(\mathbf{I}-\mathbf{W})\mathbf{E}=\boldsymbol{\Lambda}\mathbf{D}\mathbf{E}. \end{equation}$

X

$\mathbf{X}$

Y = E

$\mathbf{Y}=\mathbf{E}$

где имеет размеры основанные на двух нижних собственных значениях .

E

$\mathbf{E}$

n \times 2

$n \times 2$

Λ

$\boldsymbol{\Lambda}$

— NXG Logic
источник

Y

$Y$

Y

$Y$

W

$W$

Да, но если есть, скажем, 8 измерений, то для случайных данных буквально каждая точка может быть записана идеально как линейная комбинация из 9 других, бесконечным числом способов.

— Скотт

При реализации техники всегда есть сценарии «что если», и именно поэтому используются ограничения параметров.

— NXG Logic