Графическая интуиция статистики на многообразии


12

На этом посте вы можете прочитать заявление:

Модели обычно представлены точками θ на конечномерном многообразии.

В дифференциальной геометрии и статистике Майкла К. Мюррея и Джона В. Райса эти понятия объясняются в прозе, читаемой даже без учета математических выражений. К сожалению, иллюстраций очень мало. То же самое касается этого поста на MathOverflow.

Я хочу попросить помощи с визуальным представлением, чтобы служить в качестве карты или мотивации для более формального понимания темы.

Какие точки на коллекторе? Эта цитата из этой онлайн-находки , по-видимому, указывает, что это могут быть либо точки данных, либо параметры распределения:

Статистика по многообразиям и информационная геометрия - это два разных способа, с помощью которых дифференциальная геометрия встречается со статистикой. В то время как в статистике по многообразиям данные лежат на многообразии, в информационной геометрии данные находятся в Rn , но параметризованное семейство интересующих функций плотности вероятности рассматривается как многообразие. Такие многообразия известны как статистические многообразия.


Я нарисовал эту диаграмму, вдохновленную этим объяснением касательного пространства здесь :

введите описание изображения здесь

[ Отредактируйте, чтобы отразить комментарий ниже о :C ] На многообразии касательное пространство является множеством всех возможных производных («скоростей») в точке p M, связанной с каждой возможной кривой ( ψ : RM ) на коллекторе, проходящем через p . Это можно рассматривать как набор карт из каждой кривой, пересекающей p , т.е. C ( t ) R , определяемый как композиция ( f(M)pM(ψ:RM)p.p,C(t)R,, сфобозначающей кривой (функция от реальной линии к поверхности коллектора М )проходящая через точкур,и изображен красный цвет на диаграмме выше; иf,представляющий тестовую функцию. В «изобутилF» белые контурные линиикарте к той же точке на прямой, а вокруг точкир.(fψ)(t)ψMp,f,fp

Эквивалентность (или одна из эквивалентностей, применяемых к статистике) обсуждается здесь и будет относиться к следующей цитате :

Если пространство параметров для экспоненциального семейства содержит мерное открытое множество, то оно называется полным рангом.s

Экспоненциальное семейство, которое не является полным рангом, обычно называют изогнутым экспоненциальным семейством, поскольку обычно пространство параметров представляет собой кривую в размерности, меньшей s .Rss.

Это, по-видимому, делает интерпретацию графика следующим образом: параметры распределения (в данном случае семейств экспоненциальных распределений) лежат на многообразии. Точки данных в будут отображаться в линию на многообразии через функцию ψ : RM в случае задачи нелинейной оптимизации с недостатком ранга. Это было бы параллельно вычислению скорости в физике: поиск производной функции f по градиенту линий «iso-f» (направленная производная оранжевого цвета): ( f ψ ) ( t ) . Функция F : MRψ:RMf(fψ)(t). будет играть роль оптимизации выбора параметра распределения, поскольку кривая ψ движется вдоль контурных линий f на многообразии.f:MRψf


ФОН, ДОБАВЛЕННЫЙ МАТЕРИАЛОМ:

Следует отметить, что эти концепции не связаны непосредственно с нелинейным уменьшением размерности в ML. Они кажутся более похожими на информационную геометрию . Вот цитата:

Важно отметить, что статистика по многообразиям сильно отличается от обучения по многообразиям. Последнее является отраслью машинного обучения, цель которой состоит в том, чтобы выучить скрытое многообразие на основе -значных данных. Как правило, размер искомого скрытого коллектора меньше n . Латентное многообразие может быть линейным или нелинейным, в зависимости от конкретного используемого метода.Rnn


Следующая информация из Статистики по коллекторам с приложениями для моделирования деформаций формы. Автор: Oren Freifeld :

введите описание изображения здесь

В то время как , как правило , нелинейными, можно сопоставить касательное пространство, обозначаемое Т р М , в каждой точке р M . Т р М векторное пространство, размерность которого та же, что и М . Происхождение T p M находится в р . Если M вложено в некоторое евклидово пространство, мы можем думать о T p M как о аффинном подпространстве, таком что: 1) оно касается M в точке p ; 2) хотя бы локально, МMTpMpMTpMMTpMpMTpMMpMлежит полностью на одной из сторон. Элементы TpM называются касательными векторами.

[...] На многообразиях статистические модели часто выражаются в касательных пространствах.

[...]

[Мы рассматриваем два] набора данных, состоящих из точек в :M

;DL={p1,,pNL}M

DS={q1,,qNS}M

Пусть и представляют собой два, возможно , неизвестно, точки в . Предполагается, что два набора данных удовлетворяют следующим статистическим правилам:µL MµSM

{ log μ S ( q 1 ) , , log μ S ( q N S ) } T μ S M ,{logμL(p1),,logμL(pNL)}TμLM,logμL(pi)i.i.dN(0,ΣL) {logμS(q1),,logμS(qNS)}TμSM,logμS(qi)i.i.dN(0,ΣS)

[...]

Другими словами, когда выражается (как касательные векторы) в касательном пространстве (к ) в , его можно рассматривать как набор iid-выборок из гауссианы с нулевым средним с ковариацией . Аналогичным образом, когда выражается в касательном пространстве в его можно рассматривать как набор iid-выборок из гауссианы с нулевым средним с ковариацией . Это обобщает евклидов случай. M μ L Σ L D S μ S Σ SDLMμLΣLDSμSΣS

По той же ссылке я нахожу ближайший (и практически единственный) пример онлайн этой графической концепции, о которой я спрашиваю:

введите описание изображения здесь

Означает ли это, что данные лежат на поверхности многообразия, выраженного в виде касательных векторов, и параметры будут отображаться на декартовой плоскости?


1
Что ты здесь пытаешься сделать? Рисовать коллекторы? Большинство из них слишком скучно рисовать. Например, попробуйте гауссово распределение.
Аксакал

Обычно я думаю о пространствах параметров как о векторных пространствах, например, . Если бы я подумал о параметрических «многообразиях», первое, что приходит в голову, это «системы ограничений», например, . Иначе, почему пространство не "завершено"? (Что определяет подмножество, которое является «многообразием»?)f ( θ ) = 0θRnf(θ)=0
GeoMatt22

2
Надеюсь, @whuber придет и подробно расскажет о комментариях, которые он делал в чате.
gung - Восстановить Монику

1
Краткий ответ на ваш отредактированный вопрос - «нет». Касательное пространство описывает скорости всех гладких путей в многообразии. Его основная роль в статистике заключается в максимизации вероятностей, когда многообразие описывает конечно параметризованное семейство. В «обучении многообразию» многообразие используется как локальное приближение к данным - это изогнутая версия «пространства столбцов» в линейной регрессии. Там касательное пространство вкладывается в окружающее евклидово пространство. Локально он описывает «направления» данных, а его нормальный пакет дает «ошибочные» направления.
whuber

1
Да: кокасательное пространство точке можно определить как дифференцирование ростков функций вокруг . Касательное пространство в точке (следовательно!) Просто двойственно. и приобретает топология - то есть допускает понятие две касательных пространств и быть «рядом» - с помощью координатных карт на . Это сводит определение (и проблему визуализации) к определению касательного пространства . Это множество всех векторов, начинающихся в . Спивак, в исчислении на многообразияхp p p T M T M T p M T q M M T x R n xTpMpppTMTMTpMTqMMTxRnx, дает четкое, элементарное определение такого рода.
whuber

Ответы:


3

Семейство вероятностных распределений можно анализировать как точки на многообразии с внутренними координатами, соответствующими параметрам распределения. Идея состоит в том, чтобы избежать представления с неверной метрикой: одномерные гауссианы могут быть нанесены в виде точек в евклидовом многообразии как на правой стороне графика ниже со средним по оси и SD по оси (положительная половина в случае построения дисперсии):N ( μ , σ 2 ) , R 2 x y(Θ)N(μ,σ2),R2xy

введите описание изображения здесь

Однако единичная матрица (евклидово расстояние) не сможет измерить степень (несоответствия) между отдельными : на нормальных кривых слева на графике выше, учитывая интервал в области, площадь без перекрытия (темно-синим цветом) больше для гауссовых кривых с меньшей дисперсией, даже если среднее значение остается неизменным. Фактически единственной римановой метрикой, которая «имеет смысл» для статистических многообразий, является информационная метрика Фишера .pdf

В информационном расстоянии Фишера: при геометрическом чтении Costa SI, Santos SA и Strapasson JE используют сходство между информационной матрицей Фишера гауссовых распределений и метрикой в модели диска Бельтрами-Пойнкаре для получения замкнутой формулы.

«Северный» конус гиперболоида становится неевклидовым многообразием, в котором каждая точка соответствует среднему и стандартному отклонению (пространству параметров) и кратчайшему расстоянию между например, и на диаграмме ниже - это геодезическая кривая, спроецированная (карта графика) на экваториальную плоскость в виде гиперпараболических прямых линий и позволяющая измерять расстояния между через метрический тензор - информационная метрика Фишера :p d f s , P Q , p d f s g μ νx2+y2x2=1pdfs,PQ,pdfsgμν(Θ)eμeν

D(P(x;θ1),Q(x;θ2))=minθ(t)|θ(0)=θ1,θ(1)=θ201(dθdt)I(θ)dθdtdt

с

I(θ)=1σ2[1002]

введите описание изображения здесь

Кульбак-Либлер расхождение тесно связано, хотя и не хватает геометрии и связанные с ними метрики.

Интересно отметить, что информационную матрицу Фишера можно интерпретировать как гессиан энтропии Шеннона :

gij(θ)=E[2logp(x;θ)θiθj]=2H(p)θiθj

с участием

H(p)=p(x;θ)logp(x;θ)dx.

Этот пример похож на концепцию более распространенной стереографической карты Земли .

Многомерное вложение ML или обучение многообразия здесь не рассматриваются.


1

Существует несколько способов связать вероятности с геометрией. Я уверен, что вы слышали об эллиптических распределениях (например, Gaussian). Сам термин подразумевает связь геометрии, и это очевидно, когда вы рисуете его ковариационную матрицу. С манифольдами это просто размещение каждого возможного значения параметра в системе координат. Например, гауссовский коллектор будет в двух измерениях: . Вы можете иметь любое значение но только положительные отклонения . Следовательно, гауссово многообразие было бы половиной всего пространства . Не так интересно μ R σ 2 > 0 R 2μ,σ2μRσ2>0R2


Я думаю, я думал, что «многообразие» должно быть меньшего размера, чем его пространство вложения? Значит, полупространство не считается?
GeoMatt22

С Gaussian это даже не многообразие, верно. Вам нужны ограничения, так что это становится некой плоскостью или линией
Аксакал

Я пытаюсь понять смысл вашего ответа ... Вы имеете в виду « в ссылке геометрии»? Кроме того, я только что нашел этот пост на MathOverflow .
Антони Пареллада

3
Это становится более интересным с соответствующей метрикой ... как метрика Фишера-Рао, а затем становится гиперболическим полуполя Пуанкаре en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model
mic

2
Для всех: (1) многообразия, которые описывают параметрические семейства, являются внутренними многообразиями: их не нужно вкладывать ни в одно векторное пространство. (2) Они представляют собой нечто большее, чем просто дифференцируемые многообразия: информация Фишера наделяет их римановой метрикой - локальным расстоянием - что позволяет их геометрически изучать. Это превращает «половину всего пространства » в кривую поверхность. R2
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.