Что это значит, когда мы говорим, что большинство точек в гиперкубе находятся на границе?


13

Если у меня есть 50-мерный гиперкуб. И я определяю его границу как или где - размерность гиперкуба. Тогда вычисление доли точек на границе гиперкуба составит . Что это значит? Значит ли это, что остальное пространство пусто? Если точек находятся на границе, то точки внутри куба не должны быть равномерно распределены?0<xj<0.050.95<xj<1xj0.99599%


3
Нет, это означает, что периферия более просторная, а эффект соразмерен с размерностью. Это несколько нелогично. Это явление имеет последствия для распределения расстояния между случайными парами узлов, которые становятся релевантными, когда вы хотите кластеризовать или вычислять ближайших соседей в многомерных пространствах.
Эмре

Вычислите, какая доля точек на отрезке линии находится вблизи его границы. Затем указывает на квадрат. Затем указывает на куб. Что вы можете сказать о них?
user253751

Ответы:


28

Говорить о « точек в гиперкубе » немного вводит в заблуждение, поскольку гиперкуб содержит бесконечно много точек. Давайте вместо этого поговорим о томе.99%

Объем гиперкуба является произведением длины его сторон. Для 50-мерного единичного гиперкуба мы получаем

Total volume=1×1××150 times=150=1.

Теперь давайте исключим границы гиперкуба и посмотрим на « внутренность » (я поставил это в кавычки, потому что математический термин « интерьер» имеет совершенно другое значение). Мы оставляем только те точки x=(x1,x2,,x50) которые удовлетворяют

0.05<x1<0.95 and 0.05<x2<0.95 and  and 0.05<x50<0.95.
Каков объем этого «интерьера»? Что ж, «внутреннее пространство» снова является гиперкубом, а длина каждой стороны равна0.9 (=0.950.05 ... это помогает представить это в двух и трех измерениях). Таким образом, объем
Interior volume=0.9×0.9××0.950 times=0.9500.005.
Сделайте вывод, что объем «границы» (определяется как единичный гиперкуб безинтерьер ) 10.9500.995.

Это показывает, что 99.5% объема 50-мерного гиперкуба сосредоточено на его « границе ».


Продолжение : Игнатий поднял интересный вопрос о том, как это связано с вероятностью. Вот пример.

Допустим, вы придумали модель (машинного обучения), которая прогнозирует цены на жилье на основе 50 входных параметров. Все 50 входных параметров независимы и равномерно распределены между 0 и 1 .

Допустим, ваша модель работает очень хорошо, если ни один из входных параметров не является экстремальным: пока каждый входной параметр остается в диапазоне от 0.05 до 0.95 , ваша модель почти идеально прогнозирует цену на жилье. Но если один или несколько входных параметров являются экстремальными (меньше 0,05 или больше 0,95 ), прогнозы вашей модели абсолютно ужасны.

Любой заданный входной параметр является экстремальным с вероятностью всего 10% . Так ясно, что это хорошая модель, верно? Нет! Вероятность того, что хотя бы один из 50 параметров является экстремальным, составляет 1-0.9500,995. Так что в 99,5% случаев прогноз вашей модели ужасен.

Эмпирическое правило. В больших измерениях экстремальные наблюдения являются правилом, а не исключением.


7
Стоит использовать цитату ОП "Означает ли это, что остальное пространство пусто?" и отвечая: нет, это означает, что остальное пространство относительно мало . , , Или похоже на ваши собственные слова. , ,
Нил Слэйтер

2
Действительно хорошее объяснение термина «проклятие размерности»
игнатий

Интересно, правильно ли следующее: если взять этот пример, если набор функций равномерно распределен вдоль [0,1] в каждом из 50 измерений, (99,5% -0,5%) = 99% объема (функция гиперкуба пробел) фиксирует только 10% значений каждого объекта
ignatius

«Любой заданный входной параметр является экстремальным с вероятностью всего 5%». Я думаю, что эта вероятность составляет 10%.
Родви

@ Родви: Вы правы, конечно, спасибо! Починил это.
Элиас Стреле

9

Вы можете видеть образец ясно даже в более низких измерениях.

1-е измерение Возьмем линию длиной 10 и границу 1. Длина границы равна 2, а внутренняя 8, 1: 4.

2-е измерение. Возьмите квадрат со стороны 10 и снова границу 1. Площадь границы 36, внутренняя 64, соотношение 9:16.

3-е измерение. Одинаковая длина и граница. Объем границы 488, внутренняя часть 512, 61:64 - уже граница занимает почти столько же места, сколько внутренняя.

4-е измерение, теперь граница 5904, а внутренняя 4096 - граница больше.

Даже при меньшей и меньшей длине границы, поскольку размер увеличивается, объем границы всегда будет превышать внутреннюю часть.


0

Лучший способ «понять» это (хотя это ИМХО для человека невозможно) - сравнить объемы n-мерного шара и n-мерного куба. С ростом n (размерности) весь объем шара «просачивается» и концентрируется в углах куба. Это полезный общий принцип, который нужно помнить в теории кодирования и ее приложениях.

Лучшее объяснение этого в учебнике содержится в книге Ричарда У. Хэмминга «Теория кодирования и информации» (3.6 Геометрический подход, стр. 44).

Короткая статья в Википедии даст вам краткое изложение того же самого , если иметь в виду , что объем п-мерного единичного куба всегда 1 ^ п.

Надеюсь, это поможет.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.