Пояснение формулы для медианы, ближайшей к началу N образцов из единичного шара


11

В Элементах Статистического Изучения введена проблема, чтобы выделить проблемы с k-nn в многомерных пространствах. Есть точек данных, которые равномерно распределены в мерном единичном шаре.Nп

Среднее расстояние от начала координат до ближайшей точки данных определяется выражением:

d(п,N)знак равно(1-(12)1N)1п

Когда , формула разбивается на половину радиуса шара, и я могу видеть, как самая близкая точка приближается к границе как , таким образом, интуиция позади knn разрушается в больших измерениях. Но я не могу понять, почему формула зависит от N. Может кто-нибудь уточнить?Nзнак равно1п

Кроме того, в книге также рассматривается эта проблема: «... прогнозирование намного сложнее вблизи границ обучающей выборки. Необходимо экстраполировать из соседних точек выборки, а не интерполировать между ними». Это кажется глубоким утверждением, но я не могу понять, что это значит. Может ли кто-нибудь перефразировать?


1
Вам нужно немного отредактировать отображаемое уравнение. Это Показатель N применим только к этому1в числителе так, как он выглядит сейчас, или вы хотите применить его ко всему11N1 ? 12
Дилип Сарвейт

1
Это помогло бы отличить «гиперсферу» (которая в является многообразием размерности p - 1 ) от «единичного шара» (который имеет размерность p ). Гиперсфера - это граница шара. Если, как говорится в вашем заголовке, все точки взяты из гиперсферы , то, по определению, все они имеют расстояние 1 от начала координат, медианное расстояние равно 1 , и все они одинаково близки к началу координат. рпп-1п11
whuber

@DilipSarwate применяется ко всему . В книге есть пример, гдеN=500,p=10,поэтомуd(p,N)0,5212Nзнак равно500,пзнак равно10d(п,N)0,52
user64773

Ответы:


8

Объем мерного гипербола радиуса r имеет объем, пропорциональный r p .пррп

Таким образом, доля объема, превышающего расстояние от начала координат, составляет r p - ( k r ) pКр.рп-(Кр)прпзнак равно1-Кп

Вероятность того, что все случайным образом выбранные точки больше , чем расстояние K г от начала координат ( 1 - к р ) Н . Чтобы получить среднее расстояние до ближайшей случайной точки, установите эту вероятность равной 1NКр(1-Кп)N . Итак(1-кр)N=112

(1-Кп)Nзнак равно12
Кзнак равно(1-121/N)1/п,

Наглядно это делает какой - то смысл: чем больше случайных точек есть, чем ближе вы ожидаете , что ближайший к происхождению быть, поэтому следует ожидать быть убывающей функцией от N . Здесь 2 1 / N - убывающая функция от N , поэтому 1КN21/NN является возрастающей функциейN, и, следовательно,1-1121/NN - убывающая функцияN,как и егоp-го корня.1-121/NNп


Ах, хороший способ посмотреть на это. Сможете ли вы переосмыслить цитату из моего второго вопроса?
user64773

Я подозреваю, что это может означать, что в больших измерениях, точки для предсказания фактически далеки от обучающих данных, как будто на краю сферы, так что вы на самом деле не интерполируете, а скорее экстраполируете, и поэтому неопределенности намного больше. Но я не очень знаю.
Генри

Я не понимаю - я понимаю, почему это выражение - вероятность того, что все точки будут дальше, чем kr, но почему установка этой вероятности на 1/2 дает среднее расстояние ??
Ихаданни

1
@ihadanny: значение дает долю радиуса, при которой вероятность того, что всеNточек находятся дальше, равна1Кзнак равно(1-121/N)1/пN , и поэтому, когда вероятность, по крайней мере, на одну точку ближе, равна1-112 , так чтоkrявляется медианой распределения расстояния ближайшей точки. 1-12знак равно12Кр
Генри

Определение медианы, половина больше, а половина меньше.
Грант Измирлян

1

А теперь без рук машет

  1. Для любой последовательности iid rv's где F - общий CDF

    п(мин1яNYя>Y)знак равно(1-F(Y))N,
    F
  2. Таким образом , если мы IID равномерно распределены X I в единичном шаре в р измерениях, то Р ( мин 1 я N | | Х я | | > г ) = ( 1 - Р ( г ) ) Н , где Р является общий CDF расстояний, | | X я | | , я = 1 , 2 ,NИксяп

    п(мин1яN||Икся||>р)знак равно(1-F(р))N,
    F . Наконец, что такое CDF, F , для равномерно распределенной точки в единичном шаре в R p ? Вероятность того, что точка лежит в шаре радиуса r внутри шара единичного радиуса, равна соотношению объемов:||Икся||,язнак равно1,2,...,NFрп

F(р)знак равноп(||Икся||р)знак равноСрп/(С1п)знак равнорп

Таким образом, решение

1/2знак равноп(мин1яN||Икся||>r)=(1rp)N

является

r=(1(1/2)1/N)1/p.

Np

kRp


0

Как кратко, но на словах:

NprNthrrrrp, Теперь мы можем написать выражение [1] как

P(min1iN||Xi||>r)=(1rp)N.

1/2r

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.