Хорошо, давайте проанализируем пример того, как ребенок группирует свои игрушки.
Представьте, что у ребенка всего 3 игрушки:
- синий футбольный мяч
- синий фризбе
- зеленый кубик (возможно, это не самая забавная игрушка, которую вы можете себе представить)
Давайте сделаем следующую начальную гипотезу относительно того, как можно сделать игрушку:
- Возможные цвета: красный, зеленый, синий
- Возможные формы: круг, квадрат, треугольник
Теперь мы можем иметь (num_colors * num_shapes) = 3 * 3 = 9 возможных кластеров.
Мальчик собирал игрушки следующим образом:
- КЛАСТЕР А) содержит синий шар и синий фризбе, потому что они имеют одинаковый цвет и форму
- КЛАСТЕР Б) содержит супер-смешной зеленый куб
Используя только эти 2 измерения (цвет, форму), мы имеем 2 непустых кластера: так что в этом первом случае 7/9 ~ 77% нашего пространства пусто.
Теперь давайте увеличим количество измерений, которые ребенок должен рассмотреть. Мы также выдвигаем следующую гипотезу о том, как можно сделать игрушку:
- Размер игрушки может варьироваться от нескольких сантиметров до 1 метра с шагом в десять сантиметров: 0-10см, 11-20см, ..., 91см-1м
- Вес игрушки может варьироваться аналогичным образом до 1 килограмма с шагом 100 граммов: 0-100 г, 101-200 г, ..., 901 г -1 кг.
Если мы хотим сгруппировать наши игрушки СЕЙЧАС, у нас есть (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 возможных кластеров.
Мальчик собирал игрушки следующим образом:
- КЛАСТЕР А) содержит синий футбольный мяч, потому что он синий и тяжелый
- КЛАСТЕР B) содержит синий freesbe, потому что синий и светлый
- КЛАСТЕР C) содержит супер-смешной зеленый куб
Используя текущие 4 измерения (форма, цвет, размер, вес), только 3 кластера не пустые, поэтому в этом случае 897/900 ~ 99,7% пространства пусто.
Это пример того, что вы найдете в Википедии ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... когда размерность увеличивается, объем пространства увеличивается настолько быстро, что доступные данные становятся разреженными.
Редактировать: я не уверен, что мог бы действительно объяснить ребенку, почему расстояние иногда не работает в многомерных пространствах, но давайте попробуем продолжить наш пример ребенка и его игрушек.
Рассмотрим только 2 первые особенности {цвет, форма}, все согласны с тем, что синий шар больше похож на синий фризбе, чем на зеленый куб.
Теперь давайте добавим еще 98 функций (скажем: размер, вес, day_of_production_of_the_toy, материал, мягкость, day_in_which_the_toy_was_bought_by_daddy, цена и т. Д.): Ну, мне будет все труднее судить, какая игрушка похожа на какую.
Так:
- Большое количество признаков может не иметь отношения к определенному сравнению сходства, что приводит к искажению отношения сигнал / шум.
- В больших габаритах все примеры «похожи».
Если вы слушаете меня, хорошая лекция - «Несколько полезных вещей, которые нужно знать о машинном обучении» ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), в частности, в пункте 6 вид рассуждений.
Надеюсь это поможет!