Центральная предельная теорема и распределение Парето


10

Ответы:


15

В общем, это утверждение неверно - распределение Парето имеет конечное среднее значение, если его параметр формы ( α в звене) больше 1.

Когда существует среднее значение и дисперсия ( α>2 ), будут применяться обычные формы центральной предельной теоремы - например, классическая, Ляпунова, Линдеберга

Смотрите описание классической центральной предельной теоремы здесь

Цитата довольно странная, потому что центральная предельная теорема (в любой из упомянутых форм) относится не к самому образцу среднего значения, а к стандартизированному среднему (и если мы попытаемся применить его к чему-то, чье среднее значение и дисперсия конечно, нам нужно очень тщательно объяснить, о чем мы говорим, поскольку числитель и знаменатель включают вещи, которые не имеют конечных ограничений).

Тем не менее (несмотря на то, что они не совсем правильно выражены для того, чтобы говорить о центральных предельных теоремах), у него действительно есть кое-что из основного пункта - среднее значение выборки не будет сходиться к среднему значению населенности ( слабый закон больших чисел не выполняется, поскольку интеграл, определяющий среднее, не является конечным).


Как справедливо указывает kjetil в комментариях, если мы хотим, чтобы скорость конвергенции не была ужасной (т. Е. Чтобы иметь возможность использовать ее на практике), нам нужно какое-то ограничение на «как далеко» / «как быстро» приближение приближения. Бесполезно иметь адекватное приближение для n>1010100 (скажем), если мы хотим некоторого практического использования от нормального приближения.

E(|X|3)

α>3n


2
α>2α>3

@kjetil именно так; на практике вам нужно больше, чем просто вторые моменты, потому что конвергенция может быть бесполезно медленной.
Glen_b

1
Да, я добавлю ответ, чтобы показать это!
kjetil b halvorsen

2
Некоторые распределения, которые не следуют центральной предельной теореме, могут быть стандартизированы, чтобы сходиться к устойчивому закону.
Майкл Р. Черник

Отличная дискуссия здесь. Желание stackexchange было способ следить за ответами / комментариями людей;)
Чан-Хо Су

9

α>2

α=2.1α=3.1

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

А вот и сюжет:

смоделированные средства Парето, гистограмма

n=10000σ2=1, Практический способ думать об этом заключается в следующем. Распределение Парето часто предлагается для моделирования распределения дохода (или богатства). Ожидание дохода (или богатства) будет иметь очень большой вклад от нескольких миллиардов. Выборка с практическими размерами выборки будет иметь очень малую вероятность включения любых миллиардов в выборку!


3

Мне нравятся уже предоставленные ответы, но я думаю, что для «объяснения непрофессионала» есть много технических, поэтому я попробую что-то более интуитивное (начиная с уравнения ...).

p

μ=xp(x)dx
xxxxp(x)xp(x)p(x)μp

x¯=1nixiμpnnx¯np

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

введите описание изображения здесь

Это типичная реализация: среднее значение выборки сходится к среднему плотности достаточно правильно (и в среднем по способу, указанному в центральной предельной теореме). Давайте сделаем то же самое для распределения Парето без среднего (замена rnorm (N, 1,1); на парето (N, 1,1,1);)

введите описание изображения здесь

p(x)xxx

n(xμ)2p(x)dx

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.