Почему среднее арифметическое меньше среднего по логарифмически нормальному распределению?


13

Итак, у меня есть случайный процесс генерирования лог-нормально распределенных случайных величин . Вот соответствующая функция плотности вероятности:X

Рисунок, представляющий логнормальную функцию плотности вероятности

Я хотел оценить распределение нескольких моментов этого исходного распределения, скажем, 1-го момента: среднее арифметическое. Для этого 10000 раз я нарисовал 100 случайных величин, чтобы вычислить 10000 оценок среднего арифметического.

Есть два разных способа оценить это значение (по крайней мере, это то, что я понял: я могу ошибаться):

  1. путем простого вычисления среднего арифметического обычным способом:
    X¯=i=1NXiN.
  2. или путем первой оценки и µ из основного нормального распределения: µ = N i = 1 log ( X i )σμ а затем среднее значение как ˉ X =exp(μ+1
    μ=i=1Nжурнал(Икся)Nσ2знак равноΣязнак равно1N(журнал(Икся)-μ)2N
    Икс¯знак равноехр(μ+12σ2),

Проблема в том, что распределения, соответствующие каждой из этих оценок, систематически различаются:

Две оценки дают разные распределения, как показано на рисунке.

«Простое» среднее значение (представленное красной пунктирной линией) обычно дает более низкие значения, чем значение, полученное из экспоненциальной формы (зеленая простая линия). Хотя оба средства рассчитаны на один и тот же набор данных. Обратите внимание, что эта разница носит систематический характер.

Почему эти распределения не равны?


каковы ваши истинные параметры для и σ ? μσ
Кристоф Ханк

и σ = 1,5 , но, пожалуйста, обратите внимание, что я заинтересован в оценке этих параметров, поэтому мы используем подход Монте-Карло, а не вычисляем значение из этих необработанных чисел. μ=3σ=1.5
JohnW

конечно, это для тиражирования ваших результатов.
Кристоф Ханк

4
Интересно, что это явление не имеет ничего общего с логнормальностью. Учитывая положительные числа с логарифмами у я , хорошо известно их среднее арифметическое (AM) Σ х я / п никогда не меньше , чем их среднее геометрическое (GM) ехр ( Е у я / п ) . В другом направлении AM никогда не больше GM, умноженного на exp ( s 2 y / 2 ), где s 2 y - дисперсия y i.xiyixi/nexp(yi/n)exp(sy2/2)sy2yi, Таким образом, пунктирная красная кривая должна лежать слева от сплошной зеленой кривой для любого родительского распределения (описывающего положительные случайные числа).
whuber

Если большая часть среднего значения получается из крошечной вероятности огромных чисел, арифметическое среднее по конечной выборке может недооценивать среднее по совокупности с высокой вероятностью. (В ожидании это непредвзято, но существует большая вероятность небольшой недооценки и небольшой вероятности большой переоценки.) Этот вопрос также может относиться к этому: stats.stackexchange.com/questions/214733/…
Мэтью Ганн

Ответы:


12

Две сравниваемые оценки - это метод оценки моментов (1.) и MLE (2.), см. Здесь . Оба они согласуются (так при больших , они находятся в определенном смысле , вероятно, будет близка к истинному значению ехр [ μ + 1 / 2 σ 2 ] ).Nexp[μ+1/2σ2]

X¯pE(Xi)

exp[μ^+1/2σ^2]pexp[μ+1/2σ2],
μ^pμσ^2pσ2

MLE, однако, не беспристрастен.

Nμ^σ^2N=100N1μσ2

E(μ^+1/2σ^2)μ+1/2σ2

E[exp(μ^+1/2σ^2)]>exp[E(μ^+1/2σ^2)]exp[μ+1/2σ2]

N=100

N=1000

введите описание изображения здесь

Создано с помощью:

N <- 1000
reps <- 10000

mu <- 3
sigma <- 1.5
mm <- mle <- rep(NA,reps)

for (i in 1:reps){
  X <- rlnorm(N, meanlog = mu, sdlog = sigma)
  mm[i] <- mean(X)

  normmean <- mean(log(X))
  normvar <- (N-1)/N*var(log(X))
  mle[i] <- exp(normmean+normvar/2)
}
plot(density(mm),col="green",lwd=2)
truemean <- exp(mu+1/2*sigma^2)
abline(v=truemean,lty=2)
lines(density(mle),col="red",lwd=2,lty=2)

> truemean
[1] 61.86781

> mean(mm)
[1] 61.97504

> mean(mle)
[1] 61.98256

exp(μ+σ2/2)

Vt=(σ2+σ4/2)exp{2(μ+12σ2)},
exp{2(μ+12σ2)}(exp{σ2}1)
exp{σ2}>1+σ2+σ4/2,
exp(x)=i=0xi/i!σ2>0

NN <- c(50,100,200,500,1000,2000,3000,5000)

введите описание изображения здесь

NNN=50

> tail(sort(mm))
[1] 336.7619 356.6176 369.3869 385.8879 413.1249 784.6867
> tail(sort(mle))
[1] 187.7215 205.1379 216.0167 222.8078 229.6142 259.8727 

N

1
Nзнак равно100N

2
Что ж, меня тоже удивляет, что между этими двумя методами есть такая большая разница, однако этот пример абсолютно идеален, чтобы продемонстрировать, почему «просто усреднение» может быть ужасным!
JohnW

1
@JohnW, я добавил небольшое аналитическое объяснение того, почему MLE имеет меньшую дисперсию.
Кристоф Ханк,

1
Расхождение связано с тем, что смещение является проблемой конечного образца, т. Е. Оно исчезает как Nуходит в бесконечность. Сравнение асимптотической дисперсии (как следует из названия) показывает только то, что происходит в пределе, так какN,
Кристоф Ханк
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.