Можно ли восстановить нормальное распределение по размеру выборки, а также по минимальным и максимальным значениям? Я могу использовать среднюю точку для прокси среднего


14

Я знаю, что это может быть немного странно, статистически, но это моя проблема.

У меня много данных о диапазоне, то есть минимальный, максимальный и размер выборки переменной. Для некоторых из этих данных у меня также есть среднее, но не много. Я хочу сравнить эти диапазоны друг с другом, чтобы количественно оценить изменчивость каждого диапазона, а также сравнить средние значения. У меня есть веские основания полагать, что распределение симметрично относительно среднего, и что данные будут иметь гауссово распределение. По этой причине я думаю, что могу оправдать использование средней точки распределения в качестве посредника для среднего значения, когда оно отсутствует.

То, что я хочу сделать, это восстановить распределение для каждого диапазона, а затем использовать его, чтобы обеспечить стандартное отклонение или стандартную ошибку для этого распределения. Единственная информация, которую я имею, - это максимальное и минимальное значение, наблюдаемое по выборке, и средняя точка в качестве посредника для среднего значения.

Таким образом, я надеюсь, что смогу рассчитать средневзвешенные значения для каждой группы, а также определить коэффициент вариации для каждой группы, основываясь на данных о диапазоне, которые у меня есть, и моих предположениях (о симметричном и нормальном распределении).

Я планирую использовать R, чтобы сделать это, так что любая помощь в коде также будет оценена.


2
Мне было интересно, почему вы говорите, что у вас есть данные для минимальных, максимальных и максимальных значений; потом, что у вас есть информация только об ожидаемом минимуме и максимуме. Что это - наблюдается или ожидается?
Scortchi - Восстановить Монику

Извините, это моя ошибка. Наблюдаются максимальные и минимальные данные (измеренные на реальных объектах). Я исправил пост.
green_thinlake

Ответы:


11

Совместная кумулятивная функция распределения для минимального и максимального x ( n ) для выборки n из гауссовского распределения со средним μ и стандартным отклонением σ равнаx(1)x(n)nμσ

F(x(1),x(n);μ,σ)=Pr(X(1)<x(1),X(n)<x(n))=Pr(X(n)<x(n))Pr(X(1)>x(1),X(n)<x(n)=Φ(x(n)μσ)n[Φ(x(n)μσ)Φ(x(1)μσ)]n

где является стандартным гауссовым CDF. Дифференцирование по & дает общую функцию плотности вероятностиx ( 1 ) x ( n )Φ()x(1)x(n)

е(Икс(1),Икс(N);μ,σ)знак равноN(N-1)[Φ(Икс(N)-μσ)-Φ(Икс(1)-μσ)]N-2φ(Икс(N)-μσ)φ(Икс(1)-μσ)1σ2

где - стандартный гауссовский PDF. Взятие терминов log & drop, не содержащих параметров, дает функцию log-правдоподобияφ()

(μ,σ;Икс(1),Икс(N))знак равно(N-2)журнал[Φ(Икс(N)-μσ)-Φ(Икс(1)-μσ)]+журналφ(Икс(N)-μσ)+журналφ(Икс(1)-μσ)-2журналσ

Это не очень удобно, но легко увидеть, что оно максимизируется независимо от значения , установив , то есть середина - первый член максимизируется, когда аргумент одного CDF является отрицательным аргументом другого; второе и третье слагаемые представляют собой совместную вероятность двух независимых нормальных переменных.ц = ц = х ( п ) + х ( 1 )σμ=μ^=x(n)+x(1)2

Подстановка в логарифмическую вероятность и запись дает г=х(п)-х(1)(σ;х(1),х(п), μ )=(п-2)журнал[1-2Φ( - гμ^r=x(n)x(1)

(σ;x(1),x(n),μ^)=(n2)log[12Φ(r2σ)]r24σ22logσ

Это выражение должно быть максимизировано численно (например, optimizeиз statпакета R ), чтобы найти . (Оказывается, что , где - это константа, зависящая только от кто-то более математически ловкий, чем я мог бы показать, почему.) сг =к(п)гкпσ^σ^=k(n)rkn

Оценки бесполезны без сопутствующей меры точности. Наблюдаемая информация Фишера может быть оценена численно (например, hessianиз numDerivпакета R ) и использована для расчета приблизительных стандартных ошибок:

я(σ)=-2(σ; μ )

I(μ)=2(μ;σ^)(μ)2|μ=μ^
I(σ)=2(σ;μ^)(σ)2|σ=σ^

Было бы интересно сравнить вероятность и оценки метода моментов для с точки зрения смещения (согласован ли MLE?), Дисперсии и среднеквадратичной ошибки. Существует также проблема оценки для тех групп, где выборочное среднее известно в дополнение к минимуму и максимуму.σ


1
+1. Добавление константы к логарифмической вероятности не изменит местоположение ее максимума, но преобразует ее в функцию и , откуда значение , максимизирующее ее, составляет функция . Эквивалентно, как вы утверждаете. Другими словами, подходящая величина для работы - это отношение стандартного отклонения к (наблюдаемому) диапазону, или в равной степени его обратное значение, которое тесно связано с изучаемым диапазоном . 2log(r)σ/rnσ/rnk(n)σ^=k(n)r
whuber

@whuber: Спасибо! Кажется очевидным задним числом. Я включу это в ответ.
Scortchi - Восстановить Монику

1

Вам необходимо связать диапазон со стандартным отклонением / дисперсией. Пусть будет средним значением, стандартное отклонение и будет диапазоном. Тогда для нормального распределения мы имеем, что % вероятностной массы лежит в пределах 3 стандартных отклонений от среднего. Это, как практическое правило, означает, что с очень высокой вероятностью,μσR=x(n)x(1)99.7

μ+3σx(n)
и

μ3σx(1)

Вычитая второе из первого, получаем

6σx(n)x(1)=R
(это, кстати, то, откуда приходит методология обеспечения качества «шесть сигм» в промышленности). Затем вы можете получить оценку для стандартного отклонения с помощью где столбец обозначает средние значения. Это когда вы предполагаете, что все подвыборки происходят из одного и того же дистрибутива (вы писали о наличии ожидаемых диапазонов). Если каждая выборка отличается от нормы, имеет различное среднее значение и дисперсию, то вы можете использовать формулу для каждой выборки, но неопределенность / возможная неточность в оценочной величине стандартного отклонения будет намного больше.
σ^=16(x¯(n)x¯(1))

Наличие значения для среднего значения и стандартного отклонения полностью характеризует нормальное распределение.


3
Это не близкое приближение для малых и не асимптотический результат для больших . NN
Scortchi - Восстановить Монику

1
@ Stortchi Ну, я не говорил, что это хорошая оценка, но я считаю, что всегда хорошо иметь легко реализуемые решения, даже очень грубые, чтобы получить количественное представление о проблеме под рукой, наряду с более сложные и эффективные подходы, такие как, например, изложенный в другом ответе на этот вопрос.
Алекос Пападопулос

Я бы не стал придираться к тому, что «ожидание диапазона выборки оказывается примерно в 6 раз больше стандартного отклонения для значений от 200 до 1000». Но я упускаю что-то тонкое в вашем выводе, или это не сработает так же хорошо, чтобы оправдать деление диапазона на любое число? n
Scortchi - Восстановить Монику

@ Scortchi Ну, дух подхода заключается в том, что «если мы ожидаем, что почти все реализации будут находиться в пределах 6 сигм, то разумно ожидать, что экстремальные реализации будут близки к границе» - вот и все, что нужно сделать. Возможно, я слишком привык работать с крайне неполной информацией и обязан сказать что-то количественное об этом ... :)
Alecos Papadopoulos

4
Я мог бы ответить, что еще больше наблюдений будет в пределах от среднего значения, что даст лучшую оценку . Я не буду, потому что это чепуха. Любое число свыше будет грубой оценкой для некоторого значения . 10σσ^=R101.13n
Scortchi - Восстановить Монику

1

Получить функцию распределения максимума нормального распределения просто (см. «P.max.norm» в коде). Из него (с некоторым исчислением) вы можете получить функцию квантиля (см. «Q.max.norm»).

Используя «Q.max.norm» и «Q.min.norm», вы можете получить медиану диапазона, связанного с N. Используя идею, представленную Алекосом Пападопулосом (в предыдущем ответе), вы можете вычислить sd.

Попробуй это:

N = 100000    # the size of the sample

# Probability function given q and N
P.max.norm <- function(q, N=1, mean=0, sd=1){
    pnorm(q,mean,sd)^N
} 
# Quantile functions given p and N
Q.max.norm <- function(p, N=1, mean=0, sd=1){
    qnorm(p^(1/N),mean,sd)
} 
Q.min.norm <- function(p, N=1, mean=0, sd=1){
    mean-(Q.max.norm(p, N=N, mean=mean, sd=sd)-mean)
} 

### lets test it (takes some time)
Q.max.norm(0.5, N=N)  # The median on the maximum
Q.min.norm(0.5, N=N)  # The median on the minimum

iter = 100
median(replicate(iter, max(rnorm(N))))
median(replicate(iter, min(rnorm(N))))
# it is quite OK

### Lets try to get estimations
true_mean = -3
true_sd = 2
N = 100000

x = rnorm(N, true_mean, true_sd)  # simulation
x.vec = range(x)                  # observations

# estimation
est_mean = mean(x.vec)
est_sd = diff(x.vec)/(Q.max.norm(0.5, N=N)-Q.min.norm(0.5, N=N))

c(true_mean, true_sd)
c(est_mean, est_sd)

# Quite good, but only for large N
# -3  2
# -3.252606  1.981593

2
Продолжая этот подход, , где - диапазон & - стандартная нормальная кумулятивная функция распределения. Вы можете найти табличные значения для малых в статистической литературе по управлению процессами, численно оценить интеграл или смоделировать для вашего . E(R)=σ1(1Φ(x))nΦ(x)ndx=σd2(n)RΦ()d2nn
Scortchi - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.