Из многих рассуждений о «множественном предположении» быстро становится очевидным, что многие авторы особенно небрежно относятся к его значению. Более осторожные определяют это с тонким, но чрезвычайно важным предостережением : данные лежат на низкоразмерном многообразии или близко к нему .
Даже те, кто не включает в себя предложение «или близко к», явно принимают предположение о многообразии как приблизительную фикцию, удобную для выполнения математического анализа, потому что их приложения должны учитывать отклонения между данными и оцененным многообразием. Действительно, многие авторы позже вводят явный механизм отклонений, такой как созерцание регрессии против где вынужден лежать на многообразии но может включать случайные отклонения. Это эквивалентно предположению, что кортежи лежат близкоx x M k ⊂ R d yYxxMk⊂Rd yk(xi,yi)к, но не обязательно, к погруженному мерному многообразию видаk
(x,f(x))∈Mk×R⊂Rd×R≈Rd+1
для некоторой гладкой (регрессионной) функции . Поскольку мы можем рассматривать все возмущенные точки , которые просто близки к графу ( мерное многообразие), как лежащие на с - мерного многообразия , это помогает объяснить , почему такая небрежность о различая «на» от « близкий к» может быть неважным в теории. ( x , y ) = ( x , f ( x ) + ε ) f k k + 1f:Rd→R(x,y)=(x,f(x)+ε)fkk+1Mk×R
Разница между «вкл» и «близко к» чрезвычайно важна для приложений. «Близко к» позволяет отклонять данные от коллектора. Таким образом, если вы решите оценить этот коллектор, то типичное количество отклонений между данными и коллектором может быть определено количественно. Один подобранный коллектор будет лучше другого, когда типичное количество отклонений меньше, при прочих равных условиях.
На рисунке показаны две версии предположения о коллекторе для данных (большие синие точки): черный коллектор относительно прост (требуется только четыре параметра для описания), но подходит только «близко» к данным, в то время как красный коллектор с точками соответствует данным отлично но сложно (нужно 17 параметров).
Как и во всех таких проблемах, существует компромисс между сложностью описания многообразия и добротностью соответствия (проблема переоснащения). Это всегда тот случай, когда можно найти одномерное многообразие, идеально подходящее для любого конечного количества данных в (как в случае с красным пунктирным многообразием на рисунке, просто проведите плавную кривую через все точки в любом порядке: почти наверняка он не пересечет сам себя, но если это произойдет, возмущение кривой в окрестности любого такого пересечения, чтобы устранить его). С другой стороны, если разрешен только ограниченный класс многообразий (например, только прямые евклидовы гиперплоскости), то хорошее согласование может быть невозможным независимо от размеров, и типичное отклонение между данными и подбором может быть большим.Rd
Это приводит к прямому практическому способу оценки предположения о многообразии: если модель / предиктор / классификатор, разработанная из предположения о многообразии, работает приемлемо хорошо, то это предположение было оправданным. Таким образом, надлежащие условия, которые будут заданы в этом вопросе, будут заключаться в том, что некоторая соответствующая мера качества соответствия будет приемлемо малой. (Какая мера? Это зависит от проблемы и равносильно выбору функции потерь.)
Вполне возможно, что многообразия разных размеров (с разными видами ограничений на их кривизну) могут соответствовать данным - и предсказывать удерживаемые данные - одинаково хорошо. Ничто не может быть «доказано» в отношении «лежащего в основе» коллектора в целом, особенно при работе с большими, грязными, человеческими наборами данных. Все, на что мы обычно можем надеяться, это то, что подобранный коллектор - хорошая модель.
Если вы не придумали хорошую модель / предиктор / классификатор, то либо допущение о многообразии неверно, либо вы предполагаете, что многообразия имеют слишком малую размерность, либо вы не выглядели достаточно усердно или недостаточно хорошо.