Рассмотрим сумму


40

Я размышлял об этом некоторое время; Я нахожу это немного странным, как внезапно это происходит. По сути, зачем нам нужно только три формы для сглаживания Zn , как это происходит? И почему сглаживание происходит так быстро?

Z2 :

2

Z3 :

3

(изображения, бесстыдно похищенные из блога Джона Д. Кука: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ )

Почему это не займет, скажем, четыре формы? Или пять? Или...?


11
хорошо, чтобы быть настолько простым, чтобы быть легким, потому что сумма 3 униформ имеет квадратичные сегменты в своем pf, и как только вы получите две или более униформ, у вас будет среднее значение. Квадратичный пик является "гладким" ... и соединения между квадратичными частями имеют значения 1 и 2, поэтому он не может изгибаться при 1,5; Есть и другие способы прийти к такому же выводу
Glen_b

Ответы:


71

Мы можем использовать различные подходы к этому, любой из которых может показаться интуитивным для одних людей и менее интуитивным для других. Чтобы учесть такие различия, в этом ответе рассматривается несколько таких подходов, охватывающих основные разделы математического мышления - анализ (бесконечный и бесконечно малый), геометрия / топология (пространственные отношения) и алгебра (формальные модели символических манипуляций) - как а также сама вероятность. Это завершается наблюдением, которое объединяет все четыре подхода, демонстрирует, что здесь есть реальный вопрос, на который нужно ответить, и точно показывает, в чем заключается проблема. Каждый подход по-своему обеспечивает более глубокое понимание характера форм функций распределения вероятностей сумм независимых равномерных переменных.


Задний план

Равномерное распределение[0,1] имеет несколько основных описаний. Когда имеет такое распределение,X

  1. Вероятность того, что лежит в измеримом множестве A, является просто мерой (длиной) A [ 0 , 1 ] , записанной | A [ 0 , 1 ] | ,XAA[0,1]|A[0,1]|

  2. Отсюда следует, что накопительная функция распределения (CDF)

    FX(x)=Pr(Xx)=|(,x][0,1]|=|[0,min(x,1)]|={0x<0x0x11x>1.

    CDF

  3. Функция плотности вероятности (PDF), которая является производной от CDF, имеет вид для 0 x 1 и f X ( x ) = 0 в противном случае. (Это не определено в 0 и 1. )fX(x)=10x1fX(x)=001

    PDF


Интуиция из характерных функций (анализ)

Характеристическая функция (КФ) любой случайной величины является ожидание ехр ( я т Х ) (где я это мнимая единица, я 2 = - 1 ). Используя PDF равномерного распределения, мы можем вычислитьXexp(itX)ii2=1

ϕX(t)=exp(itx)fX(x)dx=01exp(itx)dx=exp(itx)it|x=0x=1=exp(it)1it.

CF является (версия) преобразование Фурье PDF, . Наиболее основные теоремы о преобразованиях Фурье:ϕ(t)=f^(t)

  • CF суммы независимых переменных является произведением их CF.X+Y

  • Когда исходный PDF непрерывен и X ограничен, f можно восстановить из CF ϕ с помощью тесно связанной версии преобразования Фурье,fXfϕ

f(x)=ϕˇ(x)=12πexp(ixt)ϕ(t)dt.
  • Когда дифференцируемо, его производная может быть вычислена под знаком интеграла:f

    f(x)=ddx12πexp(ixt)ϕ(t)dt=i2πtexp(ixt)ϕ(t)dt.

    Чтобы это было четко определено, последний интеграл должен абсолютно сходиться; то есть,

    |texp(ixt)ϕ(t)|dt=|t||ϕ(t)|dt

    должны сходиться к конечному значению. И наоборот, когда оно сходится, производная существует повсеместно благодаря этим формулам обращения.

Теперь ясно, насколько дифференцируемо PDF для суммы равномерных переменных: от первого маркера CF суммы переменных iid - это CF одной из них, возведенной в n- ю степень, здесь равную ( exp ( i t ) - 1 ) n / ( i t ) n . Числитель ограничен (состоит из синусоид), а знаменатель равен O ( t n ) . Мы можем умножить такое подынтегральное выражение на t s, и оно все равно будет абсолютно сходиться, когда s < nnnth(exp(it)1)n/(it)nO(tn)ts и условно сходятся при s = n - 1 . Таким образом, повторное применение третьей марки показывает, что PDF для суммы n равномерных переменных будет непрерывнодифференцироваться в n - 2 раза, а в большинстве мест - в n - 1 раз.s<n1s=n1nn2n1

CF for n=10

Заштрихованная синяя кривая представляет собой логарифмический график абсолютного значения действительной части CF в сумме равномерными вариациями. Пунктирная красная линия - асимптота; его наклон - 10 , показывающий , что PDF является 10 - 2 = 8 раз дифференцируемой. Для справки, серая кривая отображает действительную часть CF для гауссовской функции аналогичной формы (обычный PDF).n=1010102=8


Интуиция от вероятности

Пусть и X - независимые случайные величины, где X имеет равномерное распределение [ 0 , 1 ] . Рассмотрим узкий интервал ( t , t + d t ] . Разобьем вероятность того, что X + Y ( t , t + d t ], на вероятность того, что Y достаточно близко к этому интервалу, умножим на вероятность того, что X является правильным размер для размещения X + YYXX[0,1](t,t+dt]X+Y(t,t+dt]YXX+Yв этом интервале, учитывая, что достаточно близко:Y

fX+Y(t)dt=Pr(X+Y(t,t+dt])=Pr(X+Y(t,t+dt]|Y(t1,t+dt])Pr(Y(t1,t+dt])=Pr(X(tY,tY+dt]|Y(t1,t+dt])(FY(t+dt)FY(t1))=1dt(FY(t+dt)FY(t1)).

Окончательное равенство приходит из выражения для ПРВА . Разделив обе стороны на d t и взяв предел при d t 0, получимXdtdt0

fX+Y(t)=FY(t)FY(t1).

Другими словами, добавление переменной Uniform X к любой переменной Y превращает pdf f Y в разностный CDF F Y ( t ) - F Y ( t - 1 ) . Поскольку PDF является производной от CDF, это означает, что каждый раз, когда мы добавляем независимую равномерную переменную в Y , полученный PDF в один раз более дифференцируем, чем раньше.[0,1]XYfYFY(t)FY(t1)Y

Давайте применим это понимание, начиная с единой переменной . Исходный PDF не дифференцируется в 0 или 1 : он прерывистый там. В формате PDF из Y + X не дифференцируема в точке 0 , 1 или 2 , но она должна быть непрерывна в тех точках, потому что это разность интегралов PDF из Y . Добавить другой независимой переменной равномерная X 2 : ПРВ Y + X + X 2 является дифференцируемой в 0 , 1 , 2Y01Y+X012YX2Y+X+X2 012и но он не обязательно имеет вторые производные в этих точках. И так далее.3


Интуиция от геометрии

CDF при суммы n iid равномерных переменных равняется объему единичного гиперкуба [ 0 , 1 ] n, лежащему в полупространстве x 1 + x 2 + + x nt . Ситуация для п = 3 переменными показано здесь, с т набор на 1 / 2 , 3 / 2 , а затем 5 / 2 .tn[0,1]nx1+x2++xntn=3t1/23/25/2

3D cube

По мере продвижения от 0 до n гиперплоскость H n ( t ) : x 1 + x 2 + + x n = t пересекает вершины при t = 0 , t = 1 , , t = n . Каждый раз форма поперечного сечения меняется: на рисунке это сначала треугольник ( 2- симплекс), затем шестиугольник, затем снова треугольник. t0nHn(t):x1+x2++xn=tt=0t=1,,t=n2Почему PDF не имеет резких изгибов при этих значениях ?t

Чтобы понять это, сначала рассмотрим небольшие значения . Здесь гиперплоскость H n ( t ) обрезает n - 1 -симплекс. Все n - 1 размеры симплекса прямо пропорциональны t , откуда его «площадь» пропорциональна t n - 1 . Некоторые обозначения для этого пригодятся позже. Пусть θ - «единичная шаговая функция»tHn(t)n1n1ttn1θ

θ(x)={0x<01x0.

Если бы не присутствие других углов гиперкуба, это масштабирование продолжалось бы бесконечно. График площади -симплекса будет выглядеть как сплошная синяя кривая ниже: он равен нулю при отрицательных значениях и равен t n - 1 / ( n - 1 ) ! на положительном, удобно записать θ ( t ) t n - 1 / ( n - 1 ) ! , Имеет «излом» порядка n - 2n1tn1/(n1)!θ(t)tn1/(n1)!n2в начале координат в том смысле, что все производные по порядку существуют и являются непрерывными, но левые и правые производные порядка n - 2 существуют, но не совпадают в начале координат.n3n2

(Остальные кривые показаны на этом рисунке (Красный), 3 & thetas ( т - 2 ) ( т - 2 ) 2 / 2 ! (Золото), и - θ ( т - 3 ) ( т - 3 ) 2 / 2 ! (черный) Их роли в случае. п3θ(t1)(t1)2/2!3θ(t2)(t2)2/2!θ(t3)(t3)2/2! обсуждаются ниже.)n=3

Simple area plot

Чтобы понять, что происходит, когда пересекает 1 , давайте подробно рассмотрим случай n = 2 , где вся геометрия происходит в плоскости. Мы можем рассматривать единицу «куб» (теперь просто квадрат) как линейную комбинацию квадрантов , как показано здесь:t1n=2

Quadrants

Первый квадрант отображается в нижней левой панели серым цветом. Значение равно 1,5 , определяя диагональную линию, показанную на всех пяти панелях. CDF равен желтой области, показанной справа. Эта желтая область состоит из:t1.5

  1. Треугольная серая область в нижней левой панели,

  2. минус треугольная зеленая область в верхней левой панели,

  3. минус треугольная красная область в нижней средней панели,

  4. плюс любая синяя область в верхней средней панели (но такой области нет и не будет, пока превысит 2 ).t2

Каждая из этих областей является областью треугольника. Первый масштабируется как t n = t 2 , следующие два равны нулю при t < 1 и в противном случае масштабируются как ( t - 1 ) n = ( t - 1 ) 2 , а последний равен нулю при t < 2, а в противном случае масштабируется как ( т - 2 ) н . Этот геометрический анализ установил, что CDF пропорционален θ (2n=4tn=t2t<1(t1)n=(t1)2t<2(t2)n = θ ( t ) t 2 - 2 θ ( т - 1 ) ( т -θ(t)t2θ(t1)(t1)2θ(t1)(t1)2+θ(t2)(t2)2 ; эквивалентно, PDF пропорционально сумме трех функций θ ( t ) t , - 2 θ ( t - 1 ) ( t - 1 ) и θ ( t - 2 ) ( t - 2 ) (каждая из них масштабируетсялинейно,когда n =θ(t)t22θ(t1)(t1)2+θ(t2)(t2)2θ(t)t2θ(t1)(t1)θ(t2)(t2)n=2). The left panel of this figure shows their graphs: evidently, they are all versions of the original graph θ(t)t, but (a) shifted by 0, 1, and 2 units to the right and (b) rescaled by 1, 2, and 1, respectively.

Graphs for n=2

The right panel shows the sum of these graphs (the solid black curve, normalized to have unit area: this is precisely the angular-looking PDF shown in the original question.

Now we can understand the nature of the "kinks" in the PDF of any sum of iid uniform variables. They are all exactly like the "kink" that occurs at 0 in the function θ(t)tn1, possibly rescaled, and shifted to the integers 1,2,,n corresponding to where the hyperplane Hn(t) crosses the vertices of the hypercube. For n=2, this is a visible change in direction: the right derivative of θ(t)t at 0 is 0 while its left derivative is 1. For n=3, this is a continuous change in direction, but a sudden (discontinuous) change in second derivative. For general n, there will be continuous derivatives through order n2 but a discontinuity in the n1st derivative.


Intuition from Algebraic Manipulation

The integration to compute the CF, the form of the conditional probability in the probabilistic analysis, and the synthesis of a hypercube as a linear combination of quadrants all suggest returning to the original uniform distribution and re-expressing it as a linear combination of simpler things. Indeed, its PDF can be written

fX(x)=θ(x)θ(x1).

Let us introduce the shift operator Δ: it acts on any function f by shifting its graph one unit to the right:

(Δf)(x)=f(x1).

Formally, then, for the PDF of a uniform variable X we may write

fX=(1Δ)θ.

The PDF of a sum of n iid uniforms is the convolution of fX with itself n times. This follows from the definition of a sum of random variables: the convolution of two functions f and g is the function

(fg)(x)=f(xy)g(y)dy.

It is easy to verify that convolution commutes with Δ. Just change the variable of integration from y to y+1:

(f(Δg))=f(xy)(Δg)(y)dy=f(xy)g(y1)dy=f((x1)y)g(y)dy=(Δ(fg))(x).

For the PDF of the sum of n iid uniforms, we may now proceed algebraically to write

f=fXn=((1Δ)θ)n=(1Δ)nθn

(where the n "power" denotes repeated convolution, not pointwise multiplication!). Now θn is a direct, elementary integration, giving

θn(x)=θ(x)xn1n1!.

The rest is algebra, because the Binomial Theorem applies (as it does in any commutative algebra over the reals):

f=(1Δ)nθn=i=0n(1)i(ni)Δiθn.

Because Δi merely shifts its argument by i, this exhibits the PDF f as a linear combination of shifted versions of θ(x)xn1, exactly as we deduced geometrically:

f(x)=1(n1)!i=0n(1)i(ni)(xi)n1θ(xi).

(John Cook quotes this formula later in his blog post, using the notation (xi)+n1 for (xi)n1θ(xi).)

Accordingly, because xn1 is a smooth function everywhere, any singular behavior of the PDF will occur only at places where θ(x) is singular (obviously just 0) and at those places shifted to the right by 1,2,,n. The nature of that singular behavior--the degree of smoothness--will therefore be the same at all n+1 locations.

Illustrating this is the picture for n=8, showing (in the left panel) the individual terms in the sum and (in the right panel) the partial sums, culminating in the sum itself (solid black curve):

Plot for n=8


Closing Comments

It is useful to note that this last approach has finally yielded a compact, practical expression for computing the PDF of a sum of n iid uniform variables. (A formula for the CDF is similarly obtained.)

The Central Limit Theorem has little to say here. After all, a sum of iid Binomial variables converges to a Normal distribution, but that sum is always discrete: it never even has a PDF at all! We should not hope for any intuition about "kinks" or other measures of differentiability of a PDF to come from the CLT.


12
(+1) Fantastic! Now, how long did it take for you to put all of this together?!
cardinal

13
@Cardinal This was the last question I read before losing power last Monday. During the ensuing week, the long dark evenings provided opportunities to think it through :-) and, for amusement, to develop multiple answers. After the power was restored last weekend, it was just a matter of finding some time to make the illustrations and write it all up (which took longer than expected, I confess). I hope that perhaps some of this thread might serve as a reference for related future questions about sums of random variables.
whuber

1
Wow. I wish I could 'favourite' this answer.
Rhubbarb

2
whuber, this is absolutely amazing. I never realized how deep such a simple question could be. It's gonna take me a while to grok your answer, but for now, thank you so much!
tetragrammaton

6
I will violate SE policy on comments, by saying that we (all of the crossvalidate.com) should bribe your power company to cut off the power more often :)
mpiktas

1

You could argue that the probability density function of a uniform random variable is finite,

so its integral the cumulative density function of a uniform random variable is continuous,

so the probability density function of the sum of two uniform random variables is continuous,

so its integral the cumulative density function of the sum of two uniform random variables is smooth (continuously differentiable),

so the probability density function of the sum of three uniform random variables is smooth.


1

I think the more surprising thing is that you get the sharp peak for n=2.

The Central Limit Theorem says that for large enough sample sizes the distribution of the mean (and the sum is just the mean times n, a fixed constant for each graph) will be approximately normal. It turns out that the uniform distribution is really well behaved with respect to the CLT (symmetric, no heavy tails (well not much of any tails), no possibility of outliers), so for the uniform the sample size needed to be "large enough" is not very big (around 5 or 6 for a good approximation), you are already seeing the OK approximation at n=3.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.