Специальное распределение вероятностей


12

Если - это распределение вероятностей с ненулевыми значениями на , для какого типа (типов) существует константа такая, что для всех ?p(x)[0,+)p(x)c>00p(x)logp(x)(1+ϵ)p(x(1+ϵ))dxcϵ20<ϵ<1

Вышеуказанное неравенство на самом деле является дивергенцией Кульбака-Лейблера между распределением и его сжатой версией . Я обнаружил, что это неравенство справедливо для распределений по экспоненте, гамме и по Вейбуллу, и мне интересно знать, работает ли это для более широкого класса вероятностных распределений.( 1 + ϵ ) p ( x ( 1 + ϵ ) )p(x)(1+ϵ)p(x(1+ϵ))

Есть идеи, что означает это неравенство?


3
Поскольку положителен, он будет сжат (в направлении x), а не растянут. ϵ
Glen_b

2
Этот вопрос неоднозначен: каковы ваши квантификаторы? Вы хотите, чтобы это неравенство сохранялось для всех , хотя бы одного или чего-то еще? Является учетом априорной или вы имеете в виду должно существовать хотя бы одно такое значение в ? И поскольку вы упоминаете классы вероятностных распределений, под « » вы подразумеваете одно конкретное распределение или, возможно, имеете в виду их параметрическое семейство? ϵ c c p ( x )ϵ ϵccp(x)
whuber

2
@whuber Спасибо за ваши комментарии. Я внес исправление в свое постановление проблемы, чтобы уточнить упомянутые проблемы. Я имею в виду, для какого справедливо указанное выше неравенство? Ответом может быть либо введение параметрического семейства распределений, либо предложение дифференциального уравнения для которое является достаточным и дает желаемое неравенство. p ( x )p(x)p(x)
Sus20200

2
Разве это неравенство не будет работать для любого p (x), который является непрерывным и с бесконечной поддержкой? Вы вычисляете дивергенцию KL внутри параметрического семейства ( . Если KL диффундируемо в 0, то его производная равна 0. Принимая за максимум кривизны KL (для ), у нас есть граница. С дополнительной работой, возможно, будет возможно связать C из свойств pC ϵ [ 0 , 1 ]ϵp(x(1+ϵ))Cϵ[0,1]
Гийома Дехаена

1
Это может быть бесконечность, пока . Разложение первого порядка в KL - этоL=limx0p(x)x=0Lϵ+O(ϵ2)
Артур Б.

Ответы:


4

прелиминарии

Написать

Ip(ϵ)=0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.

Логарифмы и отношения между и предполагают выражение как и его аргумента в качестве экспонент. Для этого определитеp ( x ( 1 + ϵ ) ) pp(x)p(x(1+ϵ))p

q(y)=log(p(ey))

для всех вещественных для которых правая часть определена и равна везде, где . Обратите внимание, что смена переменных влечет за собой и (принимая за плотность распределения), что закон полной вероятности может быть выражен как- p ( e y ) = 0 x = e y d x = e y d y pyp(ey)=0x=eydx=eydyp

(1)1=0p(x)dx=Req(y)+ydy.

Предположим, что когда . y ± eq(y)+y0y± p0p(1) Это исключает вероятностные распределения с бесконечным числом скачков плотности около или . В частности, если хвосты в конечном счете монотонны, подразумевает это предположение, показывая, что оно не является серьезным.p0p(1)

Чтобы упростить работу с логарифмами, также учтите, что

1+ϵ=eϵ+O(ϵ2).

Поскольку следующие вычисления будут выполняться с кратностью , определитеϵ2

δ=log(1+ϵ).

Мы также можем заменить на , где соответствует а положительное соответствует положительному .e δ δ = 0 ϵ = 0 δ ϵ1+ϵeδδ=0ϵ=0δϵ

Анализ

Одним из очевидных способов, с помощью которых неравенство может не сработать, было бы то, что интеграл расходится для некоторого . Это произошло бы, например, если бы любой правильный интервал положительных чисел, независимо от того, насколько мал, в котором были тождественно нулевыми, но не были равны нулю на интервале . Это привело бы к тому, что подынтегральное выражение было бы бесконечно с положительной вероятностью.ϵ(0,1][u,v]pp[u-ϵ,v-ϵ]Ip(ϵ)ϵ(0,1][u,v]pp[uϵ,vϵ]

Поскольку вопрос о природе не является специфическим , мы могли бы увязнуть в технических вопросах, касающихся того, насколько гладким может быть . Давайте избегать таких проблем, все еще надеясь получить некоторое понимание, предполагая, что везде имеет столько производных, сколько мы могли бы использовать. (Двух будет достаточно, если непрерывен.) Поскольку это гарантирует, что остается ограниченным на любом ограниченном множестве, это означает, что никогда не будет нулевым, когда .p q q q p ( x ) x > 0ppqqqp(x)x>0

Обратите внимание, что вопрос действительно касается поведения когда приближается к нулю сверху. Поскольку этот интеграл является непрерывной функцией в интервале , он достигает некоторого максимума когда ограничен любым положительным интервалом , что позволяет нам выбрать , потому что очевидноϵϵ(0,1] M p (a)ϵ[a,1]c= M p (a) / a 2 c ϵ 2 = M p (a) ( ϵIp(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2

cϵ2=Mp(a)(ϵa)2Mp(a)Ip(ϵ)

заставляет работать неравенство. Вот почему нам нужно заниматься только вычислением по модулю .ϵ2

Решение

Используя изменения переменной с на , с на и на , давайте рассчитаем до второго порядка в (или ) в надежде на достижение упрощение Для этого определитеxypqϵδIp(ϵ)ϵδ

R(y,δ)δ2=q(y+δ)q(y)δq(y)

быть остатком порядка в разложении Тейлора вокруг .2qy

Ip(ϵ)=Req(y)+y(q(y)q(y+δ)δ)dy=Req(y)+y(δ+δq(y)+R(y,δ)δ2)dy=δReq(y)+y(1+q(y))dyδ2Req(y)+yR(y,δ)dy.

Изменение переменных на в левом интеграле показывает, что оно должно исчезать, как отмечено в предположении, следующем за . Изменение переменных обратно на в правом интеграле даетq(y)+y(1)x=ey

Ip(ϵ)=δ2Rp(x)R(log(x),δ)dy=δ2Ep(R(log(x),δ)).

Неравенство выполняется (при наших различных технических предположениях) тогда и только тогда, когда коэффициент в правой части конечен.δ2

интерпретация

Это хороший момент, чтобы остановиться, потому что он, кажется, раскрывает существенную проблему: ограничен квадратичной функцией именно тогда, когда квадратичная ошибка в разложении Тейлора не дает взорваться (относительно распределения) по мере приближения к .Ip(ϵ)ϵqy±

Давайте проверим некоторые из случаев, упомянутых в вопросе: экспоненциальное и гамма-распределение. (Экспонента является частным случаем гаммы.) Нам никогда не нужно беспокоиться о параметрах масштаба, потому что они просто меняют единицы измерения. Только немасштабные параметры имеют значение.

Здесь, поскольку для , Разложение Тейлора вокруг произвольного равноИз теоремы Тейлора с остатком следует, что в доминирует для достаточно малых . Поскольку ожидание конечно, справедливо неравенство для гамма-распределений.p(x)=xkexk>1

q(y)=ey+kylogΓ(k+1).
yR(log(x),δ)ey+δ/2<xδx
Constant+(key)δey2δ2+.
R(log(x),δ)ey+δ/2<xδx

Подобные вычисления подразумевают неравенство для распределений Вейбулла, полунормальных распределений, логнормальных распределений и т. Д. Фактически, чтобы получить контрпримеры, нам нужно было бы нарушить хотя бы одно предположение, заставляя нас смотреть на распределения, где обращается в нуль на некотором интервале или не непрерывно дважды дифференцируемый, или имеет бесконечно много мод. Это простые тесты для применения к любому семейству распределений, обычно используемых в статистическом моделировании.p

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.