Мы можем использовать различные подходы к этому, любой из которых может показаться интуитивным для одних людей и менее интуитивным для других. Чтобы учесть такие различия, в этом ответе рассматривается несколько таких подходов, охватывающих основные разделы математического мышления - анализ (бесконечный и бесконечно малый), геометрия / топология (пространственные отношения) и алгебра (формальные модели символических манипуляций) - как а также сама вероятность. Это завершается наблюдением, которое объединяет все четыре подхода, демонстрирует, что здесь есть реальный вопрос, на который нужно ответить, и точно показывает, в чем заключается проблема. Каждый подход по-своему обеспечивает более глубокое понимание характера форм функций распределения вероятностей сумм независимых равномерных переменных.
Задний план
Равномерное распределение[0,1] имеет несколько основных описаний. Когда имеет такое распределение,X
Вероятность того, что лежит в измеримом множестве A, является просто мерой (длиной) A ∩ [ 0 , 1 ] , записанной | A ∩ [ 0 , 1 ] | ,XAA∩[0,1]|A∩[0,1]|
Отсюда следует, что накопительная функция распределения (CDF)
FX(x)=Pr(X≤x)=|(−∞,x]∩[0,1]|=|[0,min(x,1)]|=⎧⎩⎨⎪⎪0x1x<00≤x≤1x>1.
Функция плотности вероятности (PDF), которая является производной от CDF, имеет вид для 0 ≤ x ≤ 1 и f X ( x ) = 0 в противном случае. (Это не определено в 0 и 1. )fX(x)=10≤x≤1fX(x)=001
Интуиция из характерных функций (анализ)
Характеристическая функция (КФ) любой случайной величины является ожидание ехр ( я т Х ) (где я это мнимая единица, я 2 = - 1 ). Используя PDF равномерного распределения, мы можем вычислитьXexp(itX)ii2=−1
ϕX(t)=∫∞−∞exp(itx)fX(x)dx=∫10exp(itx)dx=exp(itx)it∣∣∣x=1x=0=exp(it)−1it.
CF является (версия) преобразование Фурье PDF, . Наиболее основные теоремы о преобразованиях Фурье:ϕ(t)=f^(t)
CF суммы независимых переменных является произведением их CF.X+Y
Когда исходный PDF непрерывен и X ограничен, f можно восстановить из CF ϕ с помощью тесно связанной версии преобразования Фурье,fXfϕ
f(x)=ϕˇ(x)=12π∫∞−∞exp(−ixt)ϕ(t)dt.
Когда дифференцируемо, его производная может быть вычислена под знаком интеграла:f
f′(x)=ddx12π∫∞−∞exp(−ixt)ϕ(t)dt=−i2π∫∞−∞texp(−ixt)ϕ(t)dt.
Чтобы это было четко определено, последний интеграл должен абсолютно сходиться; то есть,
∫∞−∞|texp(−ixt)ϕ(t)|dt=∫∞−∞|t||ϕ(t)|dt
должны сходиться к конечному значению. И наоборот, когда оно сходится, производная существует повсеместно благодаря этим формулам обращения.
Теперь ясно, насколько дифференцируемо PDF для суммы равномерных переменных: от первого маркера CF суммы переменных iid - это CF одной из них, возведенной в n- ю степень, здесь равную ( exp ( i t ) - 1 ) n / ( i t ) n . Числитель ограничен (состоит из синусоид), а знаменатель равен O ( t n ) . Мы можем умножить такое подынтегральное выражение на t s, и оно все равно будет абсолютно сходиться, когда s < nnnth(exp(it)−1)n/(it)nO(tn)ts и условно сходятся при s = n - 1 . Таким образом, повторное применение третьей марки показывает, что PDF для суммы n равномерных переменных будет непрерывнодифференцироваться в n - 2 раза, а в большинстве мест - в n - 1 раз.s<n−1s=n−1nn−2n−1
Заштрихованная синяя кривая представляет собой логарифмический график абсолютного значения действительной части CF в сумме равномерными вариациями. Пунктирная красная линия - асимптота; его наклон - 10 , показывающий , что PDF является 10 - 2 = 8 раз дифференцируемой. Для справки, серая кривая отображает действительную часть CF для гауссовской функции аналогичной формы (обычный PDF).n=10−1010−2=8
Интуиция от вероятности
Пусть и X - независимые случайные величины, где X имеет равномерное распределение [ 0 , 1 ] . Рассмотрим узкий интервал ( t , t + d t ] . Разобьем вероятность того, что X + Y ∈ ( t , t + d t ], на вероятность того, что Y достаточно близко к этому интервалу, умножим на вероятность того, что X является правильным размер для размещения X + YYXX[0,1](t,t+dt]X+Y∈(t,t+dt]YXX+Yв этом интервале, учитывая, что достаточно близко:Y
fX+Y(t)dt=Pr(X+Y∈(t,t+dt])=Pr(X+Y∈(t,t+dt]|Y∈(t−1,t+dt])Pr(Y∈(t−1,t+dt])=Pr(X∈(t−Y,t−Y+dt]|Y∈(t−1,t+dt])(FY(t+dt)−FY(t−1))=1dt(FY(t+dt)−FY(t−1)).
Окончательное равенство приходит из выражения для ПРВА . Разделив обе стороны на d t и взяв предел при d t → 0, получимXdtdt→0
fX+Y(t)=FY(t)−FY(t−1).
Другими словами, добавление переменной Uniform X к любой переменной Y превращает pdf f Y в разностный CDF F Y ( t ) - F Y ( t - 1 ) . Поскольку PDF является производной от CDF, это означает, что каждый раз, когда мы добавляем независимую равномерную переменную в Y , полученный PDF в один раз более дифференцируем, чем раньше.[0,1]XYfYFY(t)−FY(t−1)Y
Давайте применим это понимание, начиная с единой переменной . Исходный PDF не дифференцируется в 0 или 1 : он прерывистый там. В формате PDF из Y + X не дифференцируема в точке 0 , 1 или 2 , но она должна быть непрерывна в тех точках, потому что это разность интегралов PDF из Y . Добавить другой независимой переменной равномерная X 2 : ПРВ Y + X + X 2 является дифференцируемой в 0 , 1 , 2Y01Y+X012YX2Y+X+X2 012и но он не обязательно имеет вторые производные в этих точках. И так далее.3
Интуиция от геометрии
CDF при суммы n iid равномерных переменных равняется объему единичного гиперкуба [ 0 , 1 ] n, лежащему в полупространстве x 1 + x 2 + ⋯ + x n ≤ t . Ситуация для п = 3 переменными показано здесь, с т набор на 1 / 2 , 3 / 2 , а затем 5 / 2 .tn[0,1]nx1+x2+⋯+xn≤tn=3t1/23/25/2
По мере продвижения от 0 до n гиперплоскость H n ( t ) : x 1 + x 2 + ⋯ + x n = t пересекает вершины при t = 0 , t = 1 , … , t = n . Каждый раз форма поперечного сечения меняется: на рисунке это сначала треугольник ( 2- симплекс), затем шестиугольник, затем снова треугольник. t0nHn(t):x1+x2+⋯+xn=tt=0t=1,…,t=n2Почему PDF не имеет резких изгибов при этих значениях ?t
Чтобы понять это, сначала рассмотрим небольшие значения . Здесь гиперплоскость H n ( t ) обрезает n - 1 -симплекс. Все n - 1 размеры симплекса прямо пропорциональны t , откуда его «площадь» пропорциональна t n - 1 . Некоторые обозначения для этого пригодятся позже. Пусть θ - «единичная шаговая функция»tHn(t)n−1n−1ttn−1θ
θ(x)={01x<0x≥0.
Если бы не присутствие других углов гиперкуба, это масштабирование продолжалось бы бесконечно. График площади -симплекса будет выглядеть как сплошная синяя кривая ниже: он равен нулю при отрицательных значениях и равен t n - 1 / ( n - 1 ) ! на положительном, удобно записать θ ( t ) t n - 1 / ( n - 1 ) ! , Имеет «излом» порядка n - 2n−1tn−1/(n−1)!θ(t)tn−1/(n−1)!n−2в начале координат в том смысле, что все производные по порядку существуют и являются непрерывными, но левые и правые производные порядка n - 2 существуют, но не совпадают в начале координат.n−3n−2
(Остальные кривые показаны на этом рисунке (Красный), 3 & thetas ( т - 2 ) ( т - 2 ) 2 / 2 ! (Золото), и - θ ( т - 3 ) ( т - 3 ) 2 / 2 ! (черный) Их роли в случае. п−3θ(t−1)(t−1)2/2!3θ(t−2)(t−2)2/2!−θ(t−3)(t−3)2/2! обсуждаются ниже.)n=3
Чтобы понять, что происходит, когда пересекает 1 , давайте подробно рассмотрим случай n = 2 , где вся геометрия происходит в плоскости. Мы можем рассматривать единицу «куб» (теперь просто квадрат) как линейную комбинацию квадрантов , как показано здесь:t1n=2
Первый квадрант отображается в нижней левой панели серым цветом. Значение равно 1,5 , определяя диагональную линию, показанную на всех пяти панелях. CDF равен желтой области, показанной справа. Эта желтая область состоит из:t1.5
Треугольная серая область в нижней левой панели,
минус треугольная зеленая область в верхней левой панели,
минус треугольная красная область в нижней средней панели,
плюс любая синяя область в верхней средней панели (но такой области нет и не будет, пока превысит 2 ).t2
Каждая из этих областей является областью треугольника. Первый масштабируется как t n = t 2 , следующие два равны нулю при t < 1 и в противном случае масштабируются как ( t - 1 ) n = ( t - 1 ) 2 , а последний равен нулю при t < 2, а в противном случае масштабируется как ( т - 2 ) н . Этот геометрический анализ установил, что CDF пропорционален θ (2n=4tn=t2t<1(t−1)n=(t−1)2t<2(t−2)n = θ ( t ) t 2 - 2 θ ( т - 1 ) ( т -θ(t)t2−θ(t−1)(t−1)2−θ(t−1)(t−1)2+θ(t−2)(t−2)2 ; эквивалентно, PDF пропорционально сумме трех функций θ ( t ) t , - 2 θ ( t - 1 ) ( t - 1 ) и θ ( t - 2 ) ( t - 2 ) (каждая из них масштабируетсялинейно,когда n =θ(t)t2−2θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t−2θ(t−1)(t−1)θ(t−2)(t−2)n=2). The left panel of this figure shows their graphs: evidently, they are all versions of the original graph θ(t)t, but (a) shifted by 0, 1, and 2 units to the right and (b) rescaled by 1, −2, and 1, respectively.
The right panel shows the sum of these graphs (the solid black curve, normalized to have unit area: this is precisely the angular-looking PDF shown in the original question.
Now we can understand the nature of the "kinks" in the PDF of any sum of iid uniform variables. They are all exactly like the "kink" that occurs at 0 in the function θ(t)tn−1, possibly rescaled, and shifted to the integers 1,2,…,n corresponding to where the hyperplane Hn(t) crosses the vertices of the hypercube. For n=2, this is a visible change in direction: the right derivative of θ(t)t at 0 is 0 while its left derivative is 1. For n=3, this is a continuous change in direction, but a sudden (discontinuous) change in second derivative. For general n, there will be continuous derivatives through order n−2 but a discontinuity in the n−1st derivative.
Intuition from Algebraic Manipulation
The integration to compute the CF, the form of the conditional probability in the probabilistic analysis, and the synthesis of a hypercube as a linear combination of quadrants all suggest returning to the original uniform distribution and re-expressing it as a linear combination of simpler things. Indeed, its PDF can be written
fX(x)=θ(x)−θ(x−1).
Let us introduce the shift operator Δ: it acts on any function f by shifting its graph one unit to the right:
(Δf)(x)=f(x−1).
Formally, then, for the PDF of a uniform variable X we may write
fX=(1−Δ)θ.
The PDF of a sum of n iid uniforms is the convolution of fX with itself n times. This follows from the definition of a sum of random variables: the convolution of two functions f and g is the function
(f⋆g)(x)=∫∞−∞f(x−y)g(y)dy.
It is easy to verify that convolution commutes with Δ. Just change the variable of integration from y to y+1:
(f⋆(Δg))=∫∞−∞f(x−y)(Δg)(y)dy=∫∞−∞f(x−y)g(y−1)dy=∫∞−∞f((x−1)−y)g(y)dy=(Δ(f⋆g))(x).
For the PDF of the sum of n iid uniforms, we may now proceed algebraically to write
f=f⋆nX=((1−Δ)θ)⋆n=(1−Δ)nθ⋆n
(where the ⋆n "power" denotes repeated convolution, not pointwise multiplication!). Now θ⋆n is a direct, elementary integration, giving
θ⋆n(x)=θ(x)xn−1n−1!.
The rest is algebra, because the Binomial Theorem applies (as it does in any commutative algebra over the reals):
f=(1−Δ)nθ⋆n=∑i=0n(−1)i(ni)Δiθ⋆n.
Because Δi merely shifts its argument by i, this exhibits the PDF f as a linear combination of shifted versions of θ(x)xn−1, exactly as we deduced geometrically:
f(x)=1(n−1)!∑i=0n(−1)i(ni)(x−i)n−1θ(x−i).
(John Cook quotes this formula later in his blog post, using the notation (x−i)n−1+ for (x−i)n−1θ(x−i).)
Accordingly, because xn−1 is a smooth function everywhere, any singular behavior of the PDF will occur only at places where θ(x) is singular (obviously just 0) and at those places shifted to the right by 1,2,…,n. The nature of that singular behavior--the degree of smoothness--will therefore be the same at all n+1 locations.
Illustrating this is the picture for n=8, showing (in the left panel) the individual terms in the sum and (in the right panel) the partial sums, culminating in the sum itself (solid black curve):
Closing Comments
It is useful to note that this last approach has finally yielded a compact, practical expression for computing the PDF of a sum of n iid uniform variables. (A formula for the CDF is similarly obtained.)
The Central Limit Theorem has little to say here. After all, a sum of iid Binomial variables converges to a Normal distribution, but that sum is always discrete: it never even has a PDF at all! We should not hope for any intuition about "kinks" or other measures of differentiability of a PDF to come from the CLT.