Графическая интуиция статистики на многообразии

На этом посте вы можете прочитать заявление:

Модели обычно представлены точками $\theta$ на конечномерном многообразии.

В дифференциальной геометрии и статистике Майкла К. Мюррея и Джона В. Райса эти понятия объясняются в прозе, читаемой даже без учета математических выражений. К сожалению, иллюстраций очень мало. То же самое касается этого поста на MathOverflow.

Я хочу попросить помощи с визуальным представлением, чтобы служить в качестве карты или мотивации для более формального понимания темы.

Какие точки на коллекторе? Эта цитата из этой онлайн-находки , по-видимому, указывает, что это могут быть либо точки данных, либо параметры распределения:

Статистика по многообразиям и информационная геометрия - это два разных способа, с помощью которых дифференциальная геометрия встречается со статистикой. В то время как в статистике по многообразиям данные лежат на многообразии, в информационной геометрии данные находятся в $R^n$ , но параметризованное семейство интересующих функций плотности вероятности рассматривается как многообразие. Такие многообразия известны как статистические многообразия.

Я нарисовал эту диаграмму, вдохновленную этим объяснением касательного пространства здесь :

[ Отредактируйте, чтобы отразить комментарий ниже о : $C^\infty$ ] На многообразии касательное пространство является множеством всех возможных производных («скоростей») в точке связанной с каждой возможной кривой на коллекторе, проходящем через Это можно рассматривать как набор карт из каждой кривой, пересекающей т.е. определяемый как композиция $(\mathcal M)$ $p\in \mathcal M$ $(\psi: \mathbb R \to \mathcal M)$ $p.$ $p,$ $C^\infty (t)\to \mathbb R,$ , собозначающей кривой (функция от реальной линии к поверхности коллектора )проходящая через точкуи изображен красный цвет на диаграмме выше; ипредставляющий тестовую функцию. В «изобутил» белые контурные линиикарте к той же точке на прямой, а вокруг точки. $\left(f \circ \psi \right )'(t)$ $\psi$ $\mathcal M$ $p,$ $f,$ $f$ $p$

Эквивалентность (или одна из эквивалентностей, применяемых к статистике) обсуждается здесь и будет относиться к следующей цитате :

Если пространство параметров для экспоненциального семейства содержит мерное открытое множество, то оно называется полным рангом. $s$

Экспоненциальное семейство, которое не является полным рангом, обычно называют изогнутым экспоненциальным семейством, поскольку обычно пространство параметров представляет собой кривую в размерности, меньшей $\mathcal R^s$ $s.$

Это, по-видимому, делает интерпретацию графика следующим образом: параметры распределения (в данном случае семейств экспоненциальных распределений) лежат на многообразии. Точки данных в будут отображаться в линию на многообразии через функцию в случае задачи нелинейной оптимизации с недостатком ранга. Это было бы параллельно вычислению скорости в физике: поиск производной функции по градиенту линий «iso-f» (направленная производная оранжевого цвета): Функция $\mathbb R$ $\psi: \mathbb R \to \mathcal M$ $f$ $\left(f \circ \psi \right)'(t).$ будет играть роль оптимизации выбора параметра распределения, поскольку кривая движется вдоль контурных линий на многообразии. $f: \mathbb M \to \mathbb R$ $\psi$ $f$

ФОН, ДОБАВЛЕННЫЙ МАТЕРИАЛОМ:

Следует отметить, что эти концепции не связаны непосредственно с нелинейным уменьшением размерности в ML. Они кажутся более похожими на информационную геометрию . Вот цитата:

Важно отметить, что статистика по многообразиям сильно отличается от обучения по многообразиям. Последнее является отраслью машинного обучения, цель которой состоит в том, чтобы выучить скрытое многообразие на основе -значных данных. Как правило, размер искомого скрытого коллектора меньше . Латентное многообразие может быть линейным или нелинейным, в зависимости от конкретного используемого метода. $R^n$ $n$

Следующая информация из Статистики по коллекторам с приложениями для моделирования деформаций формы. Автор: Oren Freifeld :

В то время как , как правило , нелинейными, можно сопоставить касательное пространство, обозначаемое , в каждой точке . векторное пространство, размерность которого та же, что и . Происхождение находится в . Если вложено в некоторое евклидово пространство, мы можем думать о как о аффинном подпространстве, таком что: 1) оно касается точке ; 2) хотя бы локально, $M$ $TpM$ $p \in M$ $TpM$ $M$ $TpM$ $p$ $M$ $TpM$ $M$ $p$ $M$ лежит полностью на одной из сторон. Элементы TpM называются касательными векторами.

[...] На многообразиях статистические модели часто выражаются в касательных пространствах.

[...]

[Мы рассматриваем два] набора данных, состоящих из точек в : $M$

; $D_L = \{p_1, \cdots , p_{NL}\} \subset M$

$D_S = \{q_1, \cdots , q_{NS}\} \subset M$

Пусть и представляют собой два, возможно , неизвестно, точки в . Предполагается, что два набора данных удовлетворяют следующим статистическим правилам: $µ_L$ $µ_S$ $M$

$\{\log_{\mu L} (p_1), \cdots , \log_{\mu L}(p_{NL})\} \subset T_{\mu L}M, \quad \log_{\mu L}(p_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_L)$ $\{\log_{\mu S} (q_1), \cdots , \log_{\mu S}(q_{NS})\} \subset T_{\mu S}M, \quad \log_{\mu S}(q_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_S)$

[...]

Другими словами, когда выражается (как касательные векторы) в касательном пространстве (к ) в , его можно рассматривать как набор iid-выборок из гауссианы с нулевым средним с ковариацией . Аналогичным образом, когда выражается в касательном пространстве в его можно рассматривать как набор iid-выборок из гауссианы с нулевым средним с ковариацией . Это обобщает евклидов случай. $D_L$ $M$ $\mu_L$ $\Sigma_L$ $D_S$ $\mu_S$ $\Sigma_S$

По той же ссылке я нахожу ближайший (и практически единственный) пример онлайн этой графической концепции, о которой я спрашиваю:

Означает ли это, что данные лежат на поверхности многообразия, выраженного в виде касательных векторов, и параметры будут отображаться на декартовой плоскости?

— Антони Пареллада
источник

Что ты здесь пытаешься сделать? Рисовать коллекторы? Большинство из них слишком скучно рисовать. Например, попробуйте гауссово распределение.

— Аксакал

Обычно я думаю о пространствах параметров как о векторных пространствах, например, . Если бы я подумал о параметрических «многообразиях», первое, что приходит в голову, это «системы ограничений», например, . Иначе, почему пространство не "завершено"? (Что определяет подмножество, которое является «многообразием»?)

θ \in R^{n}

$\theta\in\mathbb{R}^n$

f (θ) = 0

$f(\theta)=0$

— GeoMatt22

Надеюсь, @whuber придет и подробно расскажет о комментариях, которые он делал в чате.

— gung - Восстановить Монику

Краткий ответ на ваш отредактированный вопрос - «нет». Касательное пространство описывает скорости всех гладких путей в многообразии. Его основная роль в статистике заключается в максимизации вероятностей, когда многообразие описывает конечно параметризованное семейство. В «обучении многообразию» многообразие используется как локальное приближение к данным - это изогнутая версия «пространства столбцов» в линейной регрессии. Там касательное пространство вкладывается в окружающее евклидово пространство. Локально он описывает «направления» данных, а его нормальный пакет дает «ошибочные» направления.

— whuber

Да: кокасательное пространство точке можно определить как дифференцирование ростков функций вокруг . Касательное пространство в точке (следовательно!) Просто двойственно. и приобретает топология - то есть допускает понятие две касательных пространств и быть «рядом» - с помощью координатных карт на . Это сводит определение (и проблему визуализации) к определению касательного пространства . Это множество всех векторов, начинающихся в . Спивак, в исчислении на многообразиях

T_{p}^{*} M

$T_p^{*}M$

p

$p$

p

$p$

p

$p$

T^{*} M

$T^{*}M$

T M

$TM$

T_{p} M

$T_pM$

T_{q} M

$T_qM$

M

$M$

T_{x} R^{n}

$T_x\mathbb{R}^n$

x

$x$ , дает четкое, элементарное определение такого рода.

— whuber

Ответы:

Семейство вероятностных распределений можно анализировать как точки на многообразии с внутренними координатами, соответствующими параметрам распределения. Идея состоит в том, чтобы избежать представления с неверной метрикой: одномерные гауссианы могут быть нанесены в виде точек в евклидовом многообразии как на правой стороне графика ниже со средним по оси и SD по оси (положительная половина в случае построения дисперсии): $(\Theta)$ $\mathcal N(\mu,\sigma^2),$ $\mathbb R^2$ $x$ $y$

Однако единичная матрица (евклидово расстояние) не сможет измерить степень (несоответствия) между отдельными : на нормальных кривых слева на графике выше, учитывая интервал в области, площадь без перекрытия (темно-синим цветом) больше для гауссовых кривых с меньшей дисперсией, даже если среднее значение остается неизменным. Фактически единственной римановой метрикой, которая «имеет смысл» для статистических многообразий, является информационная метрика Фишера . $\mathrm{pdf}$

В информационном расстоянии Фишера: при геометрическом чтении Costa SI, Santos SA и Strapasson JE используют сходство между информационной матрицей Фишера гауссовых распределений и метрикой в модели диска Бельтрами-Пойнкаре для получения замкнутой формулы.

«Северный» конус гиперболоида становится неевклидовым многообразием, в котором каждая точка соответствует среднему и стандартному отклонению (пространству параметров) и кратчайшему расстоянию между например, и на диаграмме ниже - это геодезическая кривая, спроецированная (карта графика) на экваториальную плоскость в виде гиперпараболических прямых линий и позволяющая измерять расстояния между через метрический тензор - информационная метрика Фишера : $x^2 + y^2 - x^2 = -1$ $\mathrm {pdf's,}$ $P$ $Q,$ $\mathrm{pdf's}$ $g_{\mu\nu}\;(\Theta)\;\mathbf e^\mu\otimes \mathbf e^\nu$

D (P (x; θ_{1}), Q (x; θ_{2})) = min_{θ (t) | θ (0) = θ_{1}, θ (1) = θ_{2}} \int_{0}^{1} \sqrt{{(\frac{d θ}{d t})}^{⊤} I (θ) \frac{d θ}{d t} d t}

$D\,\left ( P(x;\theta_1)\,,\,Q(x;\theta_2) \right)=\min_{\theta(t)\,|\,\theta(0)=\theta_1\;,\;\theta(1)=\theta_2}\;\int_0^1 \; \sqrt{\left(\frac{\mathrm d\theta}{\mathrm dt} \right)^\top\;I(\theta)\frac{\mathrm d \theta}{\mathrm dt}dt}$

I (θ) = \frac{1}{σ^{2}} [\begin{matrix} 1 & 0 \\ 0 & 2 \end{matrix}]

$I(\theta) = \frac{1}{\sigma^2}\begin{bmatrix}1&0\\0&2 \end{bmatrix}$

Кульбак-Либлер расхождение тесно связано, хотя и не хватает геометрии и связанные с ними метрики.

Интересно отметить, что информационную матрицу Фишера можно интерпретировать как гессиан энтропии Шеннона :

g_{i j} (θ) = - E [\frac{\partial^{2} \log p (x; θ)}{\partial θ_{i} \partial θ_{j}}] = \frac{\partial^{2} H (p)}{\partial θ_{i} \partial θ_{j}}

$g_{ij}(\theta)=-E\left[ \frac{\partial^2\log p(x;\theta)}{\partial \theta_i \partial\theta_j} \right]=\frac{\partial^2 H(p)}{\partial \theta_i \partial \theta_j}$

с участием

H (p) = - \int p (x; θ) \log p (x; θ) d x .

$H(p) = -\int p(x;\theta)\,\log p(x;\theta) \mathrm dx.$

Этот пример похож на концепцию более распространенной стереографической карты Земли .

Многомерное вложение ML или обучение многообразия здесь не рассматриваются.

— Антони Пареллада
источник

Существует несколько способов связать вероятности с геометрией. Я уверен, что вы слышали об эллиптических распределениях (например, Gaussian). Сам термин подразумевает связь геометрии, и это очевидно, когда вы рисуете его ковариационную матрицу. С манифольдами это просто размещение каждого возможного значения параметра в системе координат. Например, гауссовский коллектор будет в двух измерениях: . Вы можете иметь любое значение но только положительные отклонения . Следовательно, гауссово многообразие было бы половиной всего пространства . Не так интересно $\mu,\sigma^2$ $\mu\in R$ $\sigma^2>0$ $R^2$

— Аксакал
источник

Я думаю, я думал, что «многообразие» должно быть меньшего размера, чем его пространство вложения? Значит, полупространство не считается?

— GeoMatt22

С Gaussian это даже не многообразие, верно. Вам нужны ограничения, так что это становится некой плоскостью или линией

— Аксакал

Я пытаюсь понять смысл вашего ответа ... Вы имеете в виду « в ссылке геометрии»? Кроме того, я только что нашел этот пост на MathOverflow .

— Антони Пареллада

Это становится более интересным с соответствующей метрикой ... как метрика Фишера-Рао, а затем становится гиперболическим полуполя Пуанкаре en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model

— mic

Для всех: (1) многообразия, которые описывают параметрические семейства, являются внутренними многообразиями: их не нужно вкладывать ни в одно векторное пространство. (2) Они представляют собой нечто большее, чем просто дифференцируемые многообразия: информация Фишера наделяет их римановой метрикой - локальным расстоянием - что позволяет их геометрически изучать. Это превращает «половину всего пространства » в кривую поверхность.

R^{2}

$\mathbb{R}^2$

— whuber