Как доказать правильность предположения о многообразии?

9

В машинном обучении часто предполагается, что набор данных лежит на гладком низкоразмерном многообразии (предположение о многообразии), но есть ли способ доказать, что при условии выполнения определенных условий набор данных действительно (приблизительно) генерируется из низкоразмерного гладкого многообразия?

Например, учитывая последовательность данных где (скажем, последовательность изображений лиц с разными углами) и соответствующая последовательность меток где (скажем, углы последовательности граней). Предположим, что когда и очень близки, их метки и также очень близки, мы можем представить себе, что $\{\mathbf{X}_1 \ldots \mathbf{X}_n\}$ $\mathbf X_i \in \mathbb{R}^d$ $\{ y_1 \ldots y_n\}$ $y_1 \preceq y_2 \ldots \preceq y_n$ $X_i$ $X_{i+1}$ $y_i$ $y_{i+1}$ $\{\mathbf{X}_1 \ldots \mathbf{X}_n\}$ лежат на низкоразмерном многообразии. Это правда? Если так, как мы можем доказать это? Или каким условиям должна удовлетворять последовательность, чтобы предположение о многообразии могло быть доказано?

machine-learning dimensionality-reduction manifold-learning

— thinkbear
источник

10

Из многих рассуждений о «множественном предположении» быстро становится очевидным, что многие авторы особенно небрежно относятся к его значению. Более осторожные определяют это с тонким, но чрезвычайно важным предостережением : данные лежат на низкоразмерном многообразии или близко к нему .

Даже те, кто не включает в себя предложение «или близко к», явно принимают предположение о многообразии как приблизительную фикцию, удобную для выполнения математического анализа, потому что их приложения должны учитывать отклонения между данными и оцененным многообразием. Действительно, многие авторы позже вводят явный механизм отклонений, такой как созерцание регрессии против где вынужден лежать на многообразии но может включать случайные отклонения. Это эквивалентно предположению, что кортежи лежат близко $y$ $\mathrm x$ $\mathrm x$ $M^k\subset \mathbb{R}^d$ $y$ $(\mathrm x_i, y_i)$ к, но не обязательно, к погруженному мерному многообразию вида $k$

(x, f (x)) \in M^{k} \times R \subset R^{d} \times R \approx R^{d + 1}

$(\mathrm x,f(x)) \in M^k \times \mathbb{R} \subset \mathbb{R}^d\times \mathbb{R}\approx \mathbb{R}^{d+1}$

для некоторой гладкой (регрессионной) функции . Поскольку мы можем рассматривать все возмущенные точки , которые просто близки к графу ( мерное многообразие), как лежащие на с - мерного многообразия , это помогает объяснить , почему такая небрежность о различая «на» от « близкий к» может быть неважным в теории. $f:\mathbb{R}^d\to \mathbb{R}$ $(\mathrm x,y)=(\mathrm x,f(\mathrm x)+\varepsilon)$ $f$ $k$ $k+1$ $M^k\times \mathbb R$

Разница между «вкл» и «близко к» чрезвычайно важна для приложений. «Близко к» позволяет отклонять данные от коллектора. Таким образом, если вы решите оценить этот коллектор, то типичное количество отклонений между данными и коллектором может быть определено количественно. Один подобранный коллектор будет лучше другого, когда типичное количество отклонений меньше, при прочих равных условиях.

фигура

На рисунке показаны две версии предположения о коллекторе для данных (большие синие точки): черный коллектор относительно прост (требуется только четыре параметра для описания), но подходит только «близко» к данным, в то время как красный коллектор с точками соответствует данным отлично но сложно (нужно 17 параметров).

Как и во всех таких проблемах, существует компромисс между сложностью описания многообразия и добротностью соответствия (проблема переоснащения). Это всегда тот случай, когда можно найти одномерное многообразие, идеально подходящее для любого конечного количества данных в (как в случае с красным пунктирным многообразием на рисунке, просто проведите плавную кривую через все точки в любом порядке: почти наверняка он не пересечет сам себя, но если это произойдет, возмущение кривой в окрестности любого такого пересечения, чтобы устранить его). С другой стороны, если разрешен только ограниченный класс многообразий (например, только прямые евклидовы гиперплоскости), то хорошее согласование может быть невозможным независимо от размеров, и типичное отклонение между данными и подбором может быть большим. $\mathbb{R}^d$

Это приводит к прямому практическому способу оценки предположения о многообразии: если модель / предиктор / классификатор, разработанная из предположения о многообразии, работает приемлемо хорошо, то это предположение было оправданным. Таким образом, надлежащие условия, которые будут заданы в этом вопросе, будут заключаться в том, что некоторая соответствующая мера качества соответствия будет приемлемо малой. (Какая мера? Это зависит от проблемы и равносильно выбору функции потерь.)

Вполне возможно, что многообразия разных размеров (с разными видами ограничений на их кривизну) могут соответствовать данным - и предсказывать удерживаемые данные - одинаково хорошо. Ничто не может быть «доказано» в отношении «лежащего в основе» коллектора в целом, особенно при работе с большими, грязными, человеческими наборами данных. Все, на что мы обычно можем надеяться, это то, что подобранный коллектор - хорошая модель.

Если вы не придумали хорошую модель / предиктор / классификатор, то либо допущение о многообразии неверно, либо вы предполагаете, что многообразия имеют слишком малую размерность, либо вы не выглядели достаточно усердно или недостаточно хорошо.

— Whuber
источник

1

+1 Очень мило. Позвольте мне добавить (не подразумевая, что вы разделяете мою точку зрения), что это еще раз показывает, почему принципиальный, но скептический и часто предварительный образ мышления, который культивировался в статистике на протяжении многих лет, очень важен для часто смутных, быстрых, блестящих новых. игрушечный мир машинного обучения и науки о данных.

— Момо

5

Любое конечное множество точек может поместиться на любом многообразии (нужна ссылка на теорему, я не могу вспомнить, что это за теорема, я просто помню этот факт из универа).

Если не требуется, чтобы все точки были идентифицированы, то наименьшее возможное измерение - 1.

Возьмем в качестве простого примера, учитывая, что N 2d точек, существует некоторый полином N - 1 порядка, где все N точек лежат на этом полиноме. Поэтому мы имеем 1d-многообразие для любого 2-го набора данных. Я думаю, что логика для произвольных измерений похожа.

Таким образом, это не проблема, реальные предположения касаются структуры / простоты многообразия, особенно когда рассматриваются связанные римановы многообразия как метрические пространства. Я прочитал статьи по этому фокусному фокусу и обнаружил, что, если вы внимательно прочитаете, появятся довольно большие предположения!

Предположения сделаны, когда предполагается, что индуцированное определение «близости» «сохраняет информацию в нашем наборе данных», но поскольку это формально не определено в терминах «Теория информации», результирующее определение является довольно специальным и довольно огромным предположением. В частности, проблема, по-видимому, заключается в том, что «близость» сохраняется, то есть две близкие точки остаются близкими, а «дальность» - нет, и поэтому две «дальние» точки не остаются далеко.

В заключение я бы очень осторожно относился к подобным хитростям в машинном обучении, если бы не было известно, что набор данных действительно является евклидовым, например, визуальное распознавание образов. Я не считаю эти подходы подходящими для более общих проблем.

— samthebest
источник

Спасибо! Ваш ответ помог мне лучше понять проблему. Не могли бы вы порекомендовать некоторые документы, касающиеся предположения о многообразии, которое вы упомянули здесь?

— ThinkBear

Извините, не могу вспомнить, Google должен быть в состоянии помочь :)

— samthebest