Генерировать равномерный шум из шара с p-нормой ( )


11

Я пытаюсь написать функцию, которая генерирует равномерно распределенный шум, который исходит от шара с p-нормой измерений:n

||x||pr

Я нашел возможные решения для кругов ( ) ( http://mathworld.wolfram.com/DiskPointPicking.html ), однако у меня возникли проблемы с расширением этого для различных значений .p=2п

Я попытался сделать это, просто рисуя случайную выборку из равномерного распределения и перерисовывая ее, когда она не соответствует заданному ограничению. Однако, помимо того, что это уродливое решение, оно также становится вычислительно неосуществимым для больших размеров.


1
Ответ можно найти здесь для сферы с n измерениями, используя евклидово расстояние (p = 2) math.stackexchange.com/questions/87230/… Однако я все еще не уверен, как использовать это для различных p-норм, могу ли я просто изменить используемое евклидово расстояние в другом отношении к расстоянию?
Таеке де Хаан,

2
Есть много документов, но большинство из них находятся за
платным доступом

3
«Однородный» по отношению к какой объемной метрике? В конце концов, если вы используете ball, почему евклидов объем будет интересен? п
whuber

@whuber Честно говоря, я не уверен, что это точно не указано в задании, но я бы ожидал в p-norm, поскольку в этом случае любая другая метрика кажется произвольной.
Таеке де Хаан

1
Проблема возникает из задания машинного обучения; «Это проблема классификации двух классов в 204 измерениях. Небольшой помеченный обучающий набор имеет размер 50 выборок на класс. Немаркированные данные предоставляют 20 000 дополнительных выборок. Однако эти выборки подверглись некоторому повреждению. Единственная дополнительная информация, которую мы имеем относительно этого искажения, состоит в том, что это аддитивный равномерный шум, и что шум исходит от шара с фиксированной p-нормой, , где и и радиус неизвестны. " Мне нужно получить наименьшую частоту появления ошибок на немаркированных данных. p r||Икс||прпр
Таеке де Хаан

Ответы:


5

Я нашел полное решение в документе, предложенном kjetil b halvorsen ( https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=758215 ). Честно говоря, мне сложно понять математику, но возможный алгоритм довольно прост. если у нас есть измерений, радиус и норма чем:р рNрп

1) сгенерировать независимых случайных вещественных скаляров , где - обобщенное гауссово распределение (с другой степенью в показатель вместо просто )ε i = ˉ G ( 1 / p , p ) ˉ G ( μ , σ 2 ) e - | х | р р = 2Nεязнак равног¯(1/п,п)г¯(μ,σ2)е-|Икс|ппзнак равно2

2) построить вектор из компонентов , где - независимые случайные знакиs iε i s iИксsя*εяsя

3) Генерация , где - случайная величина, равномерно распределенная в интервале [0, 1]. wZзнак равновес1/Nвес

4) вернутьy=rzx||x||п


2
Для полноты, не могли бы вы сказать, что такое в вашем ответе? г
Стефан Лоран

Это было обновлено
Taeke de Haan

2
G - обобщенное распределение Гаусса (с другой степенью в степени вместо просто p = 2 ). Это сделает распределение для вектора x , составленного из нескольких независимых обобщенных гауссовых распределенных переменных x i , который является произведением одиночных PDF-файлов, зависимым от p-нормы. f ( x ) e - | х | p pе-|Икс|ппзнак равно2ИксИкся
е(Икс)αе-|Икс|пп
Sextus Empiricus

@MartijnWeterings Большое спасибо, оно было обновлено.
Таеке де Хаан,

Спасибо. Для информации, есть сэмплер этого дистрибутива в пакете R pgnorm .
Стефан Лоран

3

Использование однородно распределенных многомерных переменных

Taeke предоставляет ссылку на статью, которую текст ниже делает более интуитивно понятным, объясняя конкретно 2-нормальные и 1-нормальные случаи.

x2r

направление образца

Вы можете использовать этот результат http://mathworld.wolfram.com/HyperspherePointPicking.html

Многомерная гауссовская распределенная переменная (с единичной ковариационной матрицей) зависит только от расстояния или суммы квадратов.X

f(X1,X2,...,Xn)=1in12πe12xi2=12πe121inxi2

Таким образом, равномерно распределен по поверхности n-мерной гиперсферы.XX2


расстояние образца

Для завершения вам нужно только сэмплировать расстояние, чтобы изменить однородное распределение на сфере на однородное распределение в шаре. (что более или менее похоже на ваш связанный пример для выбора точки диска)

Если бы вы просто выбрали как равномерное распределение, то у вас была бы относительно более высокая плотность вблизи центра (объем масштабируется как поэтому часть точек окажется в объеме , который является более плотным рядом с центром и не будет означать равномерное распределение)r г р нrnrrn

Если вместо этого вы используете корень переменной, выбранной из равномерного распределения, то вы получите четное распределение.n

1-нормаx1r

направление

В этом случае вы выбираете из распределения Лапласа вместо распределения Гаусса и делите на 1-норму. равномерно распределена на п-мерный 1-норма сферы.XX|X|1

У меня нет формальных доказательств, просто интуиция

(поскольку pdf не зависит от позиции, можно ожидать, что любая бесконечно малая область / объем с одинаковой 1-нормой будет иметь одинаковую вероятность а когда вы свернете ее на единичную поверхность, то же самое )f ( x)е(Икс)dВе(Икс)dA

но тестирование с симуляциями выглядит хорошо.

симуляция выбора 20000 значений, равномерно распределенных

library(rmutil)
x <- abs(rlaplace(20000))
y <- abs(rlaplace(20000))
z <- abs(rlaplace(20000))
rn <- abs(x)+abs(y)+abs(z)

xi <- (x/rn)
yi <- (y/rn)
zi <- (z/rn)
plot(sqrt(0.5)*(xi-yi),
     sqrt((0.5-0.5*(xi+yi))^2+zi^2),
     pc=21,bg=rgb(0,0,0,0.02), col=rgb(0,0,0,0),cex=1)

расстояние

Расстояние становится таким же, как в случае с 2-мя нормами (объем все еще масштабируется как ).рN

p-норма| |Икс| |пр

В этом случае, если вы хотите следовать тому же принципу, вам нужно будет выбрать из распределений с помощью (я предполагаю). Это обобщенные нормальные распределения и, вероятно, они относятся к распределению упомянутому Тэке.е(Икс)αе|Икс|пг()


1
Не могли бы вы уточнить, как вы пришли к выводу, что единичные векторы распределены равномерно? Кстати, я полагаю , вы хотите взять е корень. п
whuber

1
NрпZзнак равновес1/NвесYзнак равнорZИкс||Икс||п
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.