Существует ли какой-либо одномерный дистрибутив, из которого мы не можем сэмплировать?


12

У нас есть большое разнообразие методов для случайной генерации из одномерных распределений (обратное преобразование, принятие-отклонение, Метрополис-Гастингс и т. Д.), И кажется, что мы можем выбрать буквально из любого действительного распределения - это правда?

Не могли бы вы привести какой-нибудь пример одномерного распределения, из которого невозможно произвести случайную генерацию? Я полагаю, что такой пример, где это невозможно, не существует (?), Поэтому предположим, что под «невозможным» мы подразумеваем также случаи, которые являются очень дорогостоящими в вычислительном отношении, например, которые требуют моделирования методом грубой силы, такого как отрисовка огромного количества образцов, чтобы принять только их мало.

Если такого примера не существует, можем ли мы доказать, что мы можем генерировать случайные ничьи из любого допустимого распределения? Мне просто любопытно, существует ли контрпример для этого.


6
Я думаю, это действительно сводится к тому, что вы подразумеваете под «невозможно / невозможно». Есть случаи, когда, например, cdf и pdf очень дороги для оценки, что делает большинство методов непозволительными, и нетрудно придумать формы распределения, где хорошие границы конверта на pdf (для принятия-отклонения, что в основном избегает оценки функций) не всегда доступны. Таким образом, он потерпит неудачу в случае, который вы уже исключили, и мы могли бы сделать еще более дорогим (в среднем на отклонение) для вычисления, чем с помощью accept-reject (что исключало бы попытку использовать числовую инверсию cdf)F
Glen_b -Reinstate Monica

3
Мы не можем нарисовать однородные случайные выборки из множества иррациональных чисел на интервале (0,1) с помощью компьютера. Доказательство оставлено в качестве упражнения для читателя.
Клифф А.Б.

2
@Cliff AB Это может быть обработано интервальной арифметикой. Определите (наименьший) интервал вокруг каждой оцениваемой (рациональной) точки компьютера так, чтобы все интервалы [0,1] покрывались этими интервалами. Для каждого вычисляемого "равномерного" нарисованного компьютером оцените t (с округлением наружу) обратного интервала кумулятивной функции распределения на этом аргументе интервала. Это даст интервальную выборку случайной величины, которая на 100% будет содержать истинную выборку.
Марк Л. Стоун

2
Я имею в виду, что вы уже считаете достаточно неэффективным прием отклонения как «невозможный», если вы сделаете его настолько дорогим, что любой другой подход, о котором вы знаете, хуже (требует большего количества вычислений), вы, вероятно, также считаете эти «невозможными». Построение дорогих для оценки F и f не так сложно, и сделать их так, чтобы очевидные способы избежать фактического вычисления либо большую часть времени также были неэффективными, представляется возможным ,,, ctd
Glen_b -Reinstate Monica

1
ctd ... (но в целом люди довольно гениальны, поэтому то, что кажется очень сложным в один прекрасный день, может быть осуществимо, если у вас возникнет хорошая идея, которая обходит большую часть проблемы). Если мы говорим «приближение к такой-то и такой-то точности нормально», то многие из этих трудностей можно обойти во многих случаях (например, можно построить большие таблицы поиска / генерации из гистограмм, скажем, такие что большую часть времени вы генерируете приблизительные значения достаточно быстро).
Glen_b

Ответы:


15

Если вам известна накопительная функция распределения , то вы можете инвертировать ее, аналитически или численно, и использовать метод выборки обратного преобразования для генерации случайных выборок https://en.wikipedia.org/wiki/Inverse_transform_sampling .F(x)

Определите . Это будет обрабатывать любое распределение, непрерывное, дискретное или любую комбинацию. Это всегда можно решить численно и, возможно, аналитически. Пусть U - выборка из случайной величины, распределенной как Uniform [0,1], т. Е. Из равномерного [0,1] генератора случайных чисел. Тогда F - 1 ( U ) , определенный, как указано выше, является случайной выборкой из случайной величины, имеющей распределение F ( x ) . F1(y)=inf(x:F(x)y)F1(U)F(x)

Это может быть не самый быстрый способ генерации случайных выборок, но это способ, предполагающий, что F (x) известна.

Если F (x) не известен, то это другая история.


2
Если неизвестно, то что известно? Очевидно, что это актуально. Если вы ничего не знаете, вы ничего не сможете сделать. Если вы что-то знаете, то это зависит от того, что это такое.F(x
Марк Л. Стоун

@Tim На самом деле, довольно часто мы не знаем F (X), но мы можем генерировать сэмплы из него. Это типичный сценарий в моделировании Монте-Карло (стохастик).
Марк Л. Стоун

@Tim: Если вам не интересна эта история, неясно, какая история вас интересует. В ответ на комментарий Glen_b вы сказали, что вас не интересует неэффективная выборка. Этот метод, хотя и неэффективный, позволит вам делать выборки из любого PDF-файла (при условии, что он не так плохо ведет себя, что числовая интеграция терпит неудачу, но я не думаю, что кто-то заботится об использовании таких распределений). Поэтому, если вы не заинтересованы, скажем, в дистрибутивах, которые являются прерывистыми в бесконечном количестве мест, это должно быть ответом на ваш вопрос: да, мы можем.
Клифф А.Б.

На самом деле, если известен, но не F - 1 , это проблема. FF1
Сиань

1
Это зависит от того, что вы подразумеваете под проблемой. Если известна, то, согласно моему ответу, F - 1 ( y ) = i n f ( x : F ( x ) y ) всегда четко определена и может быть решена численно. Это может быть не так быстро, как хотелось бы, так что если это то, что вы подразумеваете под проблемой, хорошо. Если это не то, что вы имеете в виду, то в чем проблема? FF1(y)=inf(x:F(x)y)
Марк Л. Стоун

7

Когда распределение определяется только его производящей функцию момента или его характеристической функцией Φ ( t ) = E [ exp { i t X } ] , редко можно найти пути генерации из этих распределений.ϕ(t)=E[exp{tX}]Φ(t)=E[exp{itX}]

Соответствующий пример сделан для стабильных распределенийα , которые не имеют известной формы для плотности или cdf, не генерируют моментную функцию, но имеют характеристическую функцию замкнутой формы.

В байесовской статистике апостериорные распределения, связанные с трудноизвлекаемыми правдоподобиями или просто наборами данных, которые слишком велики, чтобы поместиться в один компьютер, можно рассматривать как невозможные (точно) для моделирования.


Если вам известна только функция генерирования момента, вы можете использовать аппроксимацию седловой точки, а затем моделировать ее.
kjetil b halvorsen

1
@ Сиань Вы пропустили слово «эффективно». В худшем случае вы можете численно инвертировать числовую инверсию преобразования. Это сделает работу, может быть, не "эффективно", но это сделает.
Марк Л. Стоун

3
@kjetilbhalvorsen: приближение седловой точки - это решение, предложенное в приведенной мной ссылке. Но это приближение!
Сиань

2

Fu(0,1)F1(u)FF1


1

θ=(θ1,...,θd)θj

В некоторых случаях существуют методы приблизительной выборки из этого апостериора, но точного общего метода в настоящее время не существует.


... но вопрос об одномерных распределениях. Существует множество примеров сложных моделей, в которых MCMC не может сходиться даже после огромного количества итераций.
Тим

@Tim И именно поэтому я сказал маргинальный апостериор , что означает одномерный ... Мне кажется, вы не понимаете, о чем вы спрашиваете. Первые два ответа ясны в том, что теоретически можно выбрать любой дистрибутив, если вы его знаете.
Ноя

1
Я голосую, чтобы поставить этот вопрос [НА УДЕРЖИВАНИЕ], пока ОП не уточнит, что он спрашивает, и не перестанет менять вопрос каждый раз, когда появляется новый ответ, чтобы сделать ответы неприменимыми.
Ноя

Я не меняю свой вопрос «каждый раз, когда появляется новый ответ» ... Очевидно, что статистическая модель с вероятностью и предшествованием не является одномерной, поскольку она объявлена ​​в терминах условного распределения. Он будет одномерным, если вы берете пробы сзади, но тогда я предполагаю, что вы предполагаете, что у нас уже есть предельное распределение, поэтому нет проблем с интракабельным апостериором.
Тим

1
R

1

(qi)i=1P(X=qi)=0ii=1P(X=qi)=0P(XQ)=1

μπ(μ)=1


0

Не могли бы вы привести какой-нибудь пример одномерного распределения, из которого невозможно произвести случайную генерацию?

cc

Если вас интересует только выборка случайных величин, значения которых могут быть разумно аппроксимированы 64-битными числами с плавающей точкой, или у вас есть некоторый аналогичный допуск для конечной ошибки в значении, и вы все равно не представляли свои выборки на машинах Тьюринга , учти это:

XBer(p)p=1c01

0(,c)1[c,)0(,0)c[0,1)1[1,)cxy-ось. Я не уверен, что делает выборку наиболее трудной, поэтому выберите тот, который вам больше не нравится ;-)

скажем, что под «невозможным» мы подразумеваем также случаи, которые являются очень дорогостоящими в вычислительном отношении, например, которые требуют моделирования методом грубой силы, например, отбор огромного количества образцов, чтобы принять только некоторые из них.

В этом случае очевидный ответ кажется очевидным:

  • nn
  • Образец прообраз криптографической хэш-функции (т.е. генерировать биткойны и разбивать мерзавцев и мерзавцев).
  • Пример набора оптимальных стратегий Го (с китайскими правилами суперко, которые делают все игры конечными - насколько я понимаю).

Немного более формально: я привожу вам большой пример NP-полной проблемы (или EXP-Complete и т. Д.) И прошу вас единообразно отобрать для меня набор решений.

R1

Вы можете легко проверить, удовлетворяет ли какое-либо заданное правдивое назначение моему экземпляру SAT, и, проверив их все, что вы знаете, делает ли кто-нибудь, поэтому я полностью определил CDF, предоставив вам булеву формулу (или схему), но пока не попробовал соответствующий дистрибутив. по сути, вы должны стать чем-то по меньшей мере таким же мощным, как оракул, разрешающий SAT.


Поэтому я дал вам неисчислимое число, которое должно выбрасывать песок в ваши шестерни, и я дал вам CDF, который медленно вычисляется. Может быть, следующий очевидный вопрос, который нужно задать, выглядит примерно так: существует ли CDF, представленный в некоторой эффективной форме (например, может быть оценен за полиномиальное время), такой, что трудно сгенерировать выборки с таким распределением? Я не знаю ответа на этот вопрос. Я не знаю ответа на этот вопрос.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.