Смещение оценки момента логнормального распределения


25

Я делаю некоторый численный эксперимент, который состоит в выборке логнормального распределения XLN(μ,σ) и попытке оценить моменты Е[ИксN] двумя методами:

  1. Глядя на выборку среднего значения ИксN
  2. Оценивая μ и σ2 , используя выборочные средние для журнал(Икс),журнал2(Икс) , а затем используя тот факт, что для логнормального распределения имеем Е[ИксN]знак равноехр(Nμ+(Nσ)2/2) .

Вопрос в следующем :

Я нахожу экспериментально, что второй метод работает намного лучше, чем первый, когда я фиксирую количество выборок и увеличиваю μ,σ2 на некоторый фактор Т. Есть ли какое-то простое объяснение этому факту?

Я прилагаю фигуру, на которой ось X - это T, а ось Y - это значения Е[Икс2] сравнивающие истинные значения Е[Икс2]знак равноехр(2μ+2σ2) (оранжевый линия), к оценочным значениям. метод 1 - синие точки, метод 2 - зеленые точки. Ось Y в логарифмическом масштабе

Истинные и оценочные значения для $ \ mathbb {E} [X ^ 2] $.  Синие точки - примерные значения для $ \ mathbb {E} [X ^ 2] $ (метод 1), в то время как зеленые точки - это оценочные значения с использованием метода 2. Оранжевая линия рассчитывается по известным $ \ mu $, $ \ sigma $ по тому же уравнению, что и в методе 2. Ось Y находится в логарифмическом масштабе

РЕДАКТИРОВАТЬ:

Ниже приведен минимальный код Mathematica для получения результатов для одного T с выводом:

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

Выход:

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

выше, вторым результатом является среднее значение выборки , которое ниже двух других результатовр2


2
Несмещенная оценка не означает, что синие точки должны быть около ожидаемого значения (оранжевая кривая). Оценщик может быть беспристрастным, если он имеет высокую вероятность быть слишком низким и малую (возможно, исчезающе маленькую) вероятность быть слишком высокой. Это то, что происходит, когда T увеличивается, и дисперсия становится огромной (см. Мой ответ).
Мэтью Ганн

Чтобы узнать, как получить объективные оценки, см. Stats.stackexchange.com/questions/105717 . UMVUE среднего и дисперсии приведены в ответах и ​​комментариях к ним.
whuber

Ответы:


22

Есть что-то загадочное в этих результатах, так как

  1. первый метод дает объективную оценку , а именно 1Е[Икс2] имеетE[X2] вкачестве среднего значения. Следовательно, синие точки должны быть около ожидаемого значения (оранжевая кривая);
    1NΣязнак равно1NИкся2
    Е[Икс2]
  2. второй способ обеспечивает смещенной оценкой , а именно Е [ ехр ( п ц + п 2 σ 2 / 2 ) ] > ехр ( п ц + ( пЕ[Икс2] , когда μ и σ ² являются несмещенные оценки из μ и σ ²
    Е[ехр(Nμ^+N2σ^2/2)]>ехр(Nμ+(Nσ)2/2)
    μ^σ^²μσ² соответственно, и поэтому странно, что зеленые точки выровнены с оранжевой кривой.

μTσT

Два эмпирических вторых момента, основанные на 10⁶ логарифмически нормальных моделированиях

Вот соответствующий код R:

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

μσμσ

Е[Икс2]Икс2Икс2е2μИкс2ехр{2μ+2σε}ε~N(0,1)σσεσ2ИксLN(μ,σ)

п(Икс2>Е[Икс2])знак равноп(журнал{Икс2}>2μ+2σ2)знак равноп(μ+σε>μ+σ2)знак равноп(ε>σ)знак равно1-Φ(σ)

1
Я также озадачен. Я добавляю минимальный код с результатами (Mathematica)
user29918

Хорошо. Благодарность! Сложив некоторые цифры, я вижу, что мой скудный размер выборки действительно не подходит для этой задачи!
user29918

2
σ

2
п(Икс2>Е[Икс2])знак равно1-Φ(σ)σσ

2
Этот тип асимптотики не очень полезен, так как количество симуляций, необходимых для правильной аппроксимации моментов, растет экспоненциально быстро с σ

13

Я подумал, что подброшу несколько фиг, показывающих, что графики user29918 и Сианя совпадают. На рис. 1 показано, что сделал user29918, а на рис. 2 (на основе тех же данных) - то, что сделал Сиань для своего сюжета. Тот же результат, другая презентация.

1NΣяИкся2

Дальнейшие комментарии:

  1. Беспристрастная оценка не означает, что оценка должна быть близка! Синие точки не обязательно должны соответствовать ожиданиям. Например. одно случайное наблюдение, выбранное случайным образом, дает объективную оценку среднего значения по населению, но не следует ожидать, что эта оценка будет близкой.
  2. Проблема поднимается, поскольку дисперсия становится абсолютно астрономической. Поскольку дисперсия становится все более очевидной, оценка для первого метода сводится к нескольким наблюдениям. Вы также начинаете иметь крошечную, крошечную вероятность БЕЗУМНО, БЕЗУМНО, БЕЗУМНО большого числа ...
  3. п(Икс2>Е[Икс2])знак равно1-Φ(σ)σИкс2>Е[Икс2] . введите описание изображения здесь

введите описание изображения здесь

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.