Почему не CLT работа для


16

Итак, мы знаем, что сумма n пуассонов с параметром λ сама является пуассоном с nλ . Поэтому гипотетически, можно взять xpoisson(λ=1) и говорят , что это на самом деле 1nxipoisson(λ=1) , где каждый из xi есть: xipoisson(λ=1/n) , и принять большой пчтобы получить ЦПТ к работе.

Это (очевидно) не работает. Я предполагаю, что это как-то связано с тем, как CLT работает «быстрее» для случайных переменных, которые «ближе» к нормальным, и чем меньше лямбда, тем больше мы получаем случайную переменную, которая в большинстве случаев равна 0 и редко меняется чем-то другим.

Однако я объяснил свою интуицию. Есть ли более формальный способ объяснить, почему это так?

Благодарность!


6
Для начала CLT нужно, чтобы вы поделили i=1nxi на n (в этом случае вы получите сходство к гауссову).
Алекс Р.

1
@AlexR. Нет, вы делите на n , тогда стандартное отклонение будет в 1/n
Аксакал

4
Я не вижу, что этот вопрос имеет отношение к CLT "не работает". CLT касается стандартизированных сумм случайных величин с заданным распределением, тогда как вы берете одну случайную переменную и рассматриваете бесконечно много способов ее деления .
whuber

2
@AlexR Настройка кажется неправильной. Здесь происходят два разных процесса - суммирование и деление - и нет никаких оснований полагать, что они должны иметь схожие асимптотические характеристики.
whuber

3
@Aksakal: на самом деле, AlexR правильно. Если вы разделите на , вы получите вырожденное распределение при n . Если вы разделите на nn , вы подходите к нормальному распределению с sd = 1 приn. nn
Клифф А.Б.

Ответы:


13

Я согласен с @whuber, что корень путаницы, по-видимому, заменяет асимптотику суммирования в CLT некоторым неким делением в вашем аргументе. В CLT мы получаем фиксированное распределение затем берем из него n чисел x i и вычисляем сумму ˉ x n = 1f(x,λ)nxi . Если мы продолжаем увеличиватьn,то происходит интересная вещь: x¯n=1ni=1nxin гдеμ,сг2собой среднее и дисперсия распределенияF(х).

n(x¯nμ)N(0,σ2)
μ,σ2f(x)

Что вы предлагаете делать с Пуассон несколько назад: вместо суммирования переменных из фиксированного распределения, вы хотите разделить на фиксированное распределение в постоянно изменяющиеся части. Другими словами, вы берете переменную из фиксированного распределения f ( x , λ ), а затем делите ее на x i так, чтобы n i = 1 x ixxf(x,λ)xi

i=1nxix

Что CLT говорит об этом процессе? Ничего. Обратите внимание, как в CLT мы когда-либо менялись , а егоизменениераспределенияен(х)который сходится кфиксированнымраспределениемN(0,сг2)n(x¯nμ)fn(x)N(0,σ2)

В вашей настройке ни сумма ни ее распределение f ( x , λ ) не меняются! Они исправлены. Они не меняются, они не сходятся ни к чему. Итак, CLT ничего не говорит о них.xf(x,λ)

Кроме того, CLT ничего не говорит о количестве элементов в сумме. Вы можете иметь сумму 1000 переменных от Пуассона (0,001), и CLT ничего не скажет о сумме. Все это говорит о том, что если вы продолжите увеличивать N, то в какой-то момент эта сумма начнет выглядеть как нормальное распределение . Фактически, если N = 1 000 000, вы получите близкое приближение нормального распределения.1Ni=1Nxi,xiPoisson(0.001)

Ваша интуиция верна только в отношении количества элементов в сумме, т. Е. Чем больше начальное распределение отличается от нормального, тем больше элементов вам нужно сложить, чтобы добраться до нормы. Более формальный (но все - таки неформальный) способ был бы, глядя на характеристической функции Пуассона: Если Х > > 1 , вы получаете с разложением Тейлора (WRT т ) вложенного показателя степени: exp ( i λ t - λ / 2 t 2

exp(λ(exp(it)1))
λ>>1t Это характеристическая функция нормального распределения N
exp(iλtλ/2t2)
N(λ,λ2)

Однако ваша интуиция не применяется правильно: ваше смещение суммирования в CLT с каким-то делением приводит в замешательство и делает CLT неприменимым.


+1 Подготовительный материал хорошо сформулирован, очень ясен и раскрывает суть проблемы.
whuber

7

nn,

xμndN(0,σ),

μσx.

Of course, for different distributions (i.e. higher skewed for example), larger n's are required before the approximation derived from this theorem become reasonable. In your example, for λm=1/m, an n>>m is required before the normal approximation is reasonable.

EDIT

There is discussion about how the CLT does not apply to sums, but rather to standardized sums (i.e. xi/n not xi). In theory, this is of course true: the unstandardized sum will have an undefined distribution in most cases.

However, in practice, you certainly can apply the approximation justified by the CLT to sums! If Fx¯ can be approximated by a normal CDF for large n, then certainly Fx can too, as multiplying by a scalar preserves normality. And you can see this right away in this problem: recall that if XiPois(λ), then Y=i=1nXiPois(nλ). And we all learned in our upper division probability course that for large λ, the CDF of a Pois(λ) can be approximated quite well by a normal with μ=λ, σ2=λ. So for any fixed λ, we can approximate the CDF of YPois(nλ) fairly well with Φ(ynλnλ) for a large enough n if λ>0 (approximation can trivially be applied if λ=0, but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.


5

The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend on n, say with parameter λn and λn=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=i=1nXi,n. After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n. It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of Xi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n. If you would instead have taken, for example, SnPoi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, SnPoi(1) for all n, so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let sn2=Var(Sn). The Lindeberg-Feller condition is that, ϵ>0:

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.


+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.