Объясните ребенку «Проклятие размерности»


92

Я много раз слышал о проклятии размерности, но почему-то до сих пор не могу понять идею, все туманно.

Может ли кто-нибудь объяснить это наиболее интуитивно понятным способом, как вы объясните это ребенку, чтобы я (и другие, сбитые с толку, как я) могли понять это навсегда?


РЕДАКТИРОВАТЬ:

Теперь предположим, что ребенок как-то слышал о кластеризации (например, они знают, как кластеризовать свои игрушки :)). Как увеличение размерности усложнит кластеризацию их игрушек?

Например, раньше они учитывали только форму игрушки и цвет игрушки (одноцветные игрушки), но теперь нужно также учитывать размер и вес игрушек. Почему ребенку сложнее найти похожие игрушки?


РЕДАКТИРОВАТЬ 2

Для обсуждения мне нужно пояснить, что: «Почему ребенку сложнее найти похожие игрушки», я также имею в виду, почему понятие расстояния теряется в многомерных пространствах?


4
Хороший вопрос И вы действительно выявляете ребенка в каждом статистике здесь: D Вы заставили меня использовать смайлик и при обмене стеками :)
Dawny33

2
Связанные, но не дубликаты: stats.stackexchange.com/questions/99171/…
Восстановить Монику

6
"Проклятие размерности для ребенка"? Не перед сном.
ttnphns

Ответы:


78

Возможно, ребенку понравится есть печенье, поэтому давайте предположим, что у вас есть целый грузовик с печеньем другого цвета, другой формы, другого вкуса, другой цены ...

Если ребенок должен выбрать, но принять во внимание только одну характеристику, например вкус, то у него есть четыре возможности: сладкое, соленое, кислое, горькое, поэтому ребенку нужно всего лишь попробовать четыре печенья, чтобы найти то, что ему больше всего нравится.

Если ребенку нравятся сочетания вкуса и цвета, и есть 4 (я довольно оптимистичен здесь :-)) разных цветов, то ему уже приходится выбирать из 4х4 разных типов;

Если он хочет, кроме того, принять во внимание форму печенья и есть 5 различных форм, то ему придется попробовать печенье 4x4x5 = 80

Мы могли бы продолжать, но после того, как съели все эти печенья, у него уже могла быть боль в животе ... прежде чем он мог сделать свой лучший выбор :-) Помимо боли в животе, может быть действительно трудно вспомнить различия во вкусе каждого печенья.

Как вы можете видеть (@Almo), большинство (все?) Вещей усложняются по мере увеличения числа измерений, это относится и к взрослым, и к компьютерам, и к детям.


Если это объясняет правильную концепцию (я действительно не знаю, так ли это), тогда мне нравится этот ответ, потому что я почти уверен, что ребенок может понять это.
Almo

14
Мне нравится ваш ответ, но я чувствую, что он на полпути. Я хотел бы увидеть ответ, который касается того, как расстояния становятся все менее значимыми с увеличением числа измерений.
TrynnaDoStat

1
@TrynnaDoStat: хорошо я ответил на вопрос, он не просил расстояния? Я думаю, что ни один из ответов, опубликованных до сих пор, не говорит о расстояниях? Мне слишком любопытно, если я спрашиваю, почему ты спрашиваешь это только у меня?

3
@fcoppens Потому что ваш ответ мне нравится больше всего =)
TrynnaDoStat

Поэтому, если у вас больше измерений, вам также нужно больше данных, что может оказаться невозможным.
Антон Андреев

53

Аналогия, которую я люблю использовать для проклятия размерности, немного более геометрическая, но я надеюсь, что она все еще достаточно полезна для вашего ребенка.

Легко охотиться на собаку и, возможно, поймать ее, если она бегает по равнине (два измерения). Гораздо сложнее охотиться на птиц, у которых теперь есть дополнительное измерение, в которое они могут перемещаться. Если мы притворяемся, что призраки - это существа более высокого измерения (сродни Сфере, взаимодействующей с А. Квадратом во Флатландии ), их еще сложнее поймать. :)


5
О, это хорошо! Я бы даже пошел в 1D направлении ... Может, гусеница движется в трубе?
Грег

2
Хороший вопрос ... Так может быть очень тонкая ветка дерева с гусеницей на ней? Это как-то приближает одно измерение. Естественно, птицы охотятся на них, может быть, ворона поблизости?
Грег

1
Ой! Гравитационных манипуляций было бы недостаточно, если бы вороны выучили тактику (они очень умны!): Они охотятся вдвоем, когда один приближается снизу, а другой сверху. Они знают, что если жук использует сверхдержаву, он будет весить шансы в пользу одной из этих ворон. Хммм .... Итак, что насчет ошибки с двумя сверхдержавами: гравитацией и сжатием времени? Разве это не считается чертовски сложно выследить ошибку в 5 измерениях?
Грег

1
Поймать 2 бегающих собак можно рассматривать как охоту в 4 дня, 10 собак в 20 дней, 10 ласточек в 30 дней ...
Денис

1
@ Грег, «ловить» не имеет ничего общего с измерением, они просто бегают независимо (некоторые слишком независимо).
Денис

19

Хорошо, давайте проанализируем пример того, как ребенок группирует свои игрушки.
Представьте, что у ребенка всего 3 игрушки:

  1. синий футбольный мяч
  2. синий фризбе
  3. зеленый кубик (возможно, это не самая забавная игрушка, которую вы можете себе представить)

Давайте сделаем следующую начальную гипотезу относительно того, как можно сделать игрушку:

  1. Возможные цвета: красный, зеленый, синий
  2. Возможные формы: круг, квадрат, треугольник

Теперь мы можем иметь (num_colors * num_shapes) = 3 * 3 = 9 возможных кластеров.

Мальчик собирал игрушки следующим образом:

  • КЛАСТЕР А) содержит синий шар и синий фризбе, потому что они имеют одинаковый цвет и форму
  • КЛАСТЕР Б) содержит супер-смешной зеленый куб

Используя только эти 2 измерения (цвет, форму), мы имеем 2 непустых кластера: так что в этом первом случае 7/9 ~ 77% нашего пространства пусто.

Теперь давайте увеличим количество измерений, которые ребенок должен рассмотреть. Мы также выдвигаем следующую гипотезу о том, как можно сделать игрушку:

  1. Размер игрушки может варьироваться от нескольких сантиметров до 1 метра с шагом в десять сантиметров: 0-10см, 11-20см, ..., 91см-1м
  2. Вес игрушки может варьироваться аналогичным образом до 1 килограмма с шагом 100 граммов: 0-100 г, 101-200 г, ..., 901 г -1 кг.

Если мы хотим сгруппировать наши игрушки СЕЙЧАС, у нас есть (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 возможных кластеров.

Мальчик собирал игрушки следующим образом:

  • КЛАСТЕР А) содержит синий футбольный мяч, потому что он синий и тяжелый
  • КЛАСТЕР B) содержит синий freesbe, потому что синий и светлый
  • КЛАСТЕР C) содержит супер-смешной зеленый куб

Используя текущие 4 измерения (форма, цвет, размер, вес), только 3 кластера не пустые, поэтому в этом случае 897/900 ~ 99,7% пространства пусто.

Это пример того, что вы найдете в Википедии ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... когда размерность увеличивается, объем пространства увеличивается настолько быстро, что доступные данные становятся разреженными.


Редактировать: я не уверен, что мог бы действительно объяснить ребенку, почему расстояние иногда не работает в многомерных пространствах, но давайте попробуем продолжить наш пример ребенка и его игрушек.

Рассмотрим только 2 первые особенности {цвет, форма}, все согласны с тем, что синий шар больше похож на синий фризбе, чем на зеленый куб.

Теперь давайте добавим еще 98 функций (скажем: размер, вес, day_of_production_of_the_toy, материал, мягкость, day_in_which_the_toy_was_bought_by_daddy, цена и т. Д.): Ну, мне будет все труднее судить, какая игрушка похожа на какую.

Так:

  1. Большое количество признаков может не иметь отношения к определенному сравнению сходства, что приводит к искажению отношения сигнал / шум.
  2. В больших габаритах все примеры «похожи».

Если вы слушаете меня, хорошая лекция - «Несколько полезных вещей, которые нужно знать о машинном обучении» ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), в частности, в пункте 6 вид рассуждений.

Надеюсь это поможет!


Мне очень нравится ваше объяснение, спасибо. Теперь я понимаю, что пространство немного меньше, но не могли бы вы «проиллюстрировать» эту часть, почему ребенку трудно найти, какие игрушки больше похожи в случае больших размеров? Поправьте меня, если я ошибаюсь, но я понимаю, что понятие расстояния в таких пространствах искажено, поэтому сложнее определить, какие игрушки больше похожи. Почему это?
Марко

Этот аргумент, кажется, смешивает размер с размерностью. Разделение длин и весов на десять бинов является произвольным. Хотя введение этих двух новых факторов добавляет к настройке только два измерения, биннинг увеличивает вашу оценку «размера» «пространства». Тем не менее, вообще не меняя ситуацию, вы могли бы сгруппировать размер и вес бина в корзин и сделать вывод, что по существу все пространство «пусто». 10100
whuber

@whuber: ты прав, чтобы не усложнять, я использовал неправильные слова
ndrplz

@whuber: но размер будет часто рассматривается как мера (некоторые понятия) «размер»
Кьетил б Халворсеном

@Kjetil, это интересный момент, который вполне может стоить изучить. Но не думаете ли вы, что важно прояснить смысл, в котором измерение является «размером», и отличить его от других значений «размера» в статистических условиях?
whuber

14

Я наткнулся на следующую ссылку, которая предоставляет очень интуитивное (и подробное) объяснение проклятия размерности: http://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/

В этой статье мы обсудим так называемое «проклятие размерности» и объясним, почему это важно при разработке классификатора. В следующих разделах я предоставлю интуитивное объяснение этой концепции, проиллюстрированное наглядным примером переоснащения из-за проклятия размерности.

В нескольких словах эта статья выводит (интуитивно), что добавление большего количества функций (т.е. увеличение размерности нашего пространства признаков) требует сбора большего количества данных. На самом деле объем данных, которые нам нужно собрать (чтобы избежать переоснащения), растет экспоненциально по мере добавления новых измерений.

У этого также есть хорошие иллюстрации как эта:

введите описание изображения здесь


+1, ссылка действительно очень хорошая! Я отредактировал цитату и пример изображения, но если вы можете дополнительно предоставить краткое изложение того, что там объясняется, было бы еще лучше.
говорит амеба: восстанови Монику

1
Спасибо за предложение. Я отредактировал ответ соответственно.
Костас

8

Проклятие размерности несколько нечетко по определению, поскольку описывает разные, но связанные вещи в разных дисциплинах. Следующее иллюстрирует проклятие размерности машинного обучения:

Предположим, у девочки есть десять игрушек, из которых она любит только те, которые выделены курсивом:

  • коричневый плюшевый мишка
  • синяя машина
  • красный поезд
  • желтый экскаватор
  • зеленая книга
  • серый плюшевый морж
  • черный вагон
  • розовый шар
  • белая книга
  • оранжевая кукла

Теперь ее отец хочет подарить ей новую игрушку на день рождения и хочет, чтобы она ей понравилась. Он очень много думает о том, что общего у игрушек, которые ей нравятся, и, наконец, приходит к решению. Он дает своей дочери разноцветные головоломки. Когда ей не нравится, он отвечает: «Почему тебе это не нравится? Он содержит букву w. »

Отец пал жертвой проклятия размерности (и оптимизации в выборке). Рассматривая буквы, он двигался в 26-мерном пространстве, и поэтому очень вероятно, что он найдет какой-то критерий, разделяющий игрушки, которые нравятся дочери. Это не обязательно должен быть критерий, состоящий из одной буквы, как в примере, но это также может быть что-то вроде

содержит по крайней мере один из a, n и p, но ни один из u, f и s.

Чтобы адекватно определить, являются ли письма хорошим критерием для определения того, какие игрушки любит его дочь, отец должен знать предпочтения своей дочери в отношении огромного количества игрушек… - или просто использовать свой мозг и учитывать только те параметры, которые действительно могут повлиять на дочь. мнение.


¹ порядок величины: , если бы все буквы были одинаково вероятны и он не учел бы многократное вхождение букв.226


1
+1 Очень понятно, спасибо. Это должен быть принятый ответ.
MiniQuark

7
  • Представьте себе круг, заключенный в единичный квадрат.
  • Представьте себе сферу, заключенную в единичный куб.
  • Представьте себе n-мерную гиперсферу, заключенную в n-мерный гиперкуб.

Объем гиперкуба, конечно, равен 1, если измерять в единицах. Однако объем гиперсферы уменьшается с ростом n.1n

Если внутри гиперсферы было что-то интересное, то все труднее увидеть это в более высоких измерениях. В мерном случае гиперсфера исчезает! Это проклятие.

ОБНОВЛЕНИЕ: Кажется, что некоторые люди не получили связь со статистикой. Вы можете увидеть взаимосвязь, если представите, что выбираете случайную точку внутри гиперкуба. В двумерном случае вероятность того, что эта точка находится внутри окружности (гиперсферы), равна , в трехмерном случае - и т. Д. В мерном случае вероятность равна нулю.π / 6 π/4π/6


5

Я: «Я думаю о маленьком коричневом животном, начинающемся с« S ». Что это?»

Она: "Белка!"

Я: «Хорошо, тяжелее. Я думаю о маленьком коричневом животном. Что это?»

Она: "Все еще белка?"

Я нет"

Она: "Крыса, мышь, полевка?

Я: "Нет"

Она: "Ммм ... дай мне подсказку"

Я: «Нет, но я сделаю кое-что лучше: я позволю вам ответить на вопрос CrossValidated»

Она: [стонет]

Я: «Вопрос в том, что такое проклятие размерности? И вы уже знаете ответ»

Она: "Я делаю?"

Я: «Да. Почему первое животное было сложнее угадать, чем второе?»

Она: "Потому что есть больше маленьких коричневых животных, чем маленьких коричневых животных, начинающихся с 'S'?"

Я: «Верно. И это проклятие размерности. Давайте играть снова».

Она: "ОК"

Я: «Я думаю о чем-то. Что это?»

Она: «Нет, честно. Эта игра очень сложная»

Я: «Верно. Вот почему они называют это проклятием. Вы просто не можете преуспеть, не зная вещей, о которых я склонен думать».


4

Предположим, вы хотите отправить товар. Вы хотите тратить как можно меньше места при упаковке товара (т. Е. Оставлять как можно меньше пустого места), потому что расходы по доставке связаны с объемом конверта / коробки. Контейнеры в вашем распоряжении (конверты, коробки) имеют прямые углы, поэтому мешки и т. Д.

Первая проблема: отправьте ручку («линию») - вы можете построить вокруг нее коробку без потери места.

Вторая проблема: отправить компакт-диск («сфера»). Вам нужно положить его в квадратный конверт. В зависимости от того, сколько лет ребенку, она может подсчитать, сколько конверта останется пустым (и при этом знать, что есть компакт-диски, а не только загружаемые файлы ;-)).

Третья проблема: доставить футбольный мяч (футбол, и он должен быть раздут!). Вам нужно будет положить его в коробку, и некоторое пространство останется пустым. Это пустое пространство будет более высокой долей общего объема, чем в примере с CD.

В этот момент моя интуиция, использующая эту аналогию, прекращается, потому что я не могу представить 4-е измерение.

РЕДАКТИРОВАТЬ: аналогия является наиболее полезной (если вообще) для непараметрической оценки, которая использует наблюдения "локальные" для интересующей точки, чтобы оценить, скажем, плотность или функцию регрессии в этой точке. Проклятие размерности состоит в том, что в более высоких измерениях нужно либо гораздо большее соседство для данного числа наблюдений (что делает понятие локальности сомнительным), либо большой объем данных.


Хорошо, спасибо за объяснение. Так что в целом сложнее «заполнить» все пространство, поэтому вам нужен гораздо больший образец? Мне нужно сделать мой вопрос немного более конкретным :) Я отредактирую его, пожалуйста, проверьте и другую часть.
Марко

Да, посмотрите мои правки - придется подумать о кластеризации
Кристоф Ханк

3
nn

@whuber Вот где проклятие входит в пример временного ряда. Предположим, что наш временной ряд представляет собой случайную прогулку в течение определенного количества (дискретного) времени, и на каждом этапе бродяга перемещает случайную (iid ~iform (-1, 1)) величину. Скажи, что ты следишь за мухой на линии. Теперь ваши реакции / зрение настолько хороши, что для того, чтобы держать глаза на лету, не обращая внимания на линию, вам нужно, чтобы она двигалась не более чем на 0,5 единицы в любом направлении. Конечно, если вы будете ждать достаточно долго, муха прыгнет на эту сумму, и вы потеряете ее. Но за любой фиксированный промежуток времени, сколько путей (продолжение)
Жюльен Клэнси

заставит вас потерять след мухи? Проклятие размерности гласит: почти все из них, поскольку вы позволяете времени становиться больше. И вы можете сделать свое зрение конечным хорошим, как вы хотите (то есть вы можете обнаружить движения почти все 1 в любом направлении), и происходит то же самое.
Жюльен Клэнси

1

Мой 6-летний больше на стихе исследования первопричины, как в "но откуда весь этот газ во вселенной взялся?" ... хорошо, я буду вообразить, что Ваш ребенок понимает "более высокие измерения", который кажется очень вряд ли для меня.

n[0,1]n[12,12]n

(12)n2n

А теперь иди забери свою комнату, папа должен работать.

2n12


1
О, да, это то же самое, что ответ cookie-файла от f coppens, но менее креативно. Но это может помочь недетям увидеть это так ...
Элвис

0

Есть классическая, учебная, математическая задача, которая показывает это.

Вы бы предпочли зарабатывать (вариант 1) 100 копеек в день, каждый день в течение месяца или (вариант 2) копейки, удваивающиеся каждый день в течение месяца? Вы можете задать этот вопрос своему ребенку.

Если вы выберете вариант 1,
в день 1 вы получите 100 копеек, в день 2 вы получите 100 копеек, в день 3 вы получите 100 копеек ... в день 30 вы получите 100 копеек.

nth

общее количество копеек определяется путем умножения количества дней на количество копеек в день:

i=130100=30100=3000

Если вы выберете вариант 2:
в день 1 вы получаете 1 пенни, в день 2 вы получаете 2 копейки в день 3, вы получаете 4 копейки в день 4, вы получаете 8 копеек в день 5, вы получаете 16 копеек ... в день 30 вы получаете 1 073 741 824 пенсы

nth2n

i=1302n=(231)1=21474836481=2147483647

Любой с жадностью выберет большее число. Простую жадность легко найти, и она требует мало размышлений. Нечестивые животные легко способны на жадность - в этом преуспели насекомые. Люди способны на гораздо большее.

Если вы начнете с одной копейки вместо ста, жадность будет проще, но если вы поменяете силу для многочлена, она будет более сложной. Комплекс также может означать гораздо более ценный.

О «проклятии»
«Наиболее важной» математической операцией, связанной с физикой, является инверсия матриц. Он управляет решениями систем уравнений в частных производных, наиболее распространенными из которых являются уравнения Максвелла (электромагнетизм), уравнения Навье-Стокса (жидкости), уравнение Пуассона (диффузионный перенос) и вариации закона Хукса (деформируемые твердые тела). У каждого из этих уравнений есть курсы колледжа, построенные вокруг них.

n3

Проклятие существует, потому что, если оно преодолено, в конце радуги окажется горшок с золотой ценностью. Это не легко - великие умы решительно занялись проблемой.

ссылка:


1
Ваш пример, кажется, больше связан с показом разницы между полиномиальным и экспоненциальным ростом, а не проклятием размерности.
JM не является статистиком

полиномиальный и экспоненциальный рост являются проклятием. Если бы он был линейным, то шифрование не сработало бы, и слияние в бутылке было бы легко смоделировать. Вот перечисление «проклятия» (гиперссылка в Википедии) - без которого компьютерная математика внезапно стала бы гораздо более удивительной, чем она уже есть. en.wikipedia.org/wiki/…
EngrStudent

Согласно городским знаниям, в 2008 году был обнаружен огромный прорыв в инверсии матриц, который упал на порядок ниже 2, но он был засекречен и используется для моделирования ядерного оружия или чего-то подобного.
EngrStudent

1
Я был почти убежден до тех пор, пока «не использовался для моделирования ядерного оружия или чего-то такого». ; P А если серьезно, Копперсмит-Виноград, кажется, все еще лучший, хотя с подразумеваемой константой, которая делает его полезным только для действительно больших матриц.
JM не является статистиком

Тангенциально связано с вашим ответом и предыдущим комментарием: эффективное вычисление детерминанта не слишком сложно, но вычисление перманента - это другой вопрос.
JM не является статистиком

0

Fcop предложил отличную аналогию с cookie-файлами, но охватил только аспект плотности выборки проклятия размерности. Мы можем расширить эту аналогию до объема выборки или расстояния, распределив одинаковое количество файлов cookie Fcop, скажем, в десяти ящиках в одной строке, 10х10 ячеек на столе и 10х10х10 в пачке. Затем вы можете показать, что для того, чтобы съесть такую ​​же долю печенья, ребенку придется открывать все больше ящиков.

На самом деле речь идет об ожиданиях, но для иллюстрации рассмотрим подход «наихудшего сценария».

Если есть 8 файлов cookie, и мы хотим съесть половину, то есть 4, из 10 коробок в худшем случае нам нужно всего лишь открыть 6 коробок. Это 60% - примерно половина тоже. С 10х10 (опять же в худшем случае) - 96 (%). А из 10х10х10 - 996 (99,6%). Это почти все из них!

Может быть, аналогия с кладовой и пройденное расстояние между комнатами будет лучше, чем коробки здесь.


Хорошее расширение :-)
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.