Приблизительная статистика порядка для нормальных случайных величин


39

Существуют ли хорошо известные формулы для статистики порядка некоторых случайных распределений? В частности, статистика первого и последнего порядка нормальной случайной величины, но также следует принять более общий ответ.

Изменить: чтобы уточнить, я ищу приближающие формулы, которые могут быть более или менее явно оценены, а не точное интегральное выражение.

Например, я видел следующие два приближения для статистики первого порядка (т.е. минимума) нормального rv:

e1:nμn12n1σ

а также

e1:nμ+Φ1(1n+1)σ

Первый из них при дает примерно который выглядит как дико свободная граница.n=200e1:200μ10σ

Второе дает тогда как быстрый Монте-Карло дает , так что это не плохое приближение, но тоже не велико, и что более важно, у меня нет никакой интуиции о том, откуда она взялась.e1:200μ2.58σe1:200μ2.75σ

Любая помощь?


4
Если вы используете R, см. Функцию ppoints .
кардинал

1
@probabilityislogic дал хорошую интуицию для перечисленных вами приближений. Было бы полезно, если бы я дал еще немного с альтернативной точки зрения, или вы удовлетворили свое любопытство по этому поводу?
кардинал

Ответы:


31

Классическая ссылка - это Royston (1982) [1], в котором алгоритмы выходят за рамки явных формул. Он также цитирует известную формулу Блома (1958): с . Эта формула дает множитель -2,73 для .α=0,375n=200,r=1E(r:n)μ+Φ1(rαn2α+1)σα=0.375n=200,r=1

[1]: Алгоритм AS 177: Ожидаемая статистика нормального порядка (точная и приблизительная) JP Royston. Журнал Королевского статистического общества. Серия C (Прикладная статистика) Том. 31, № 2 (1982), с. 161-165


21

Распределение статистики i-го порядка любой непрерывной случайной случайной величины переменная с PDF задается составным распределением "бета-F". Интуитивный способ думать об этом распределении, чтобы рассмотреть статистику заказа Ith в образце . Теперь, чтобы значение i-го порядка статистики случайной величины было равно нам нужно 3 условия:NXx
  1. i1 ниже , это имеет вероятность для каждого наблюдения, где - CDF случайной величины X.xFX(x)FX(x)=Pr(X<x)
  2. NiЗначения выше , это имеет вероятностьx1FX(x)
  3. 1 значение в бесконечно малом интервале, содержащем , имеет вероятность где равно PDF случайной величиныxfX(x)dxfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

Есть способов сделать этот выбор, поэтому мы имеем:(N1)(N1i1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

РЕДАКТИРОВАТЬ в своем первоначальном посте, я сделал очень плохую попытку продвинуться дальше от этого пункта, и комментарии ниже отражают это. Я попытался исправить это ниже

Если мы возьмем среднее значение этого PDF, мы получим:

E(Xi)=xifi(xi)dxi

И в этом интеграле мы делаем следующее изменение переменной (принимая подсказку @ Генри), и интеграл становится:pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

Так что это ожидаемое значение обратного CDF, которое можно хорошо аппроксимировать, используя дельта-метод, чтобы получить:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

Чтобы сделать лучшее приближение, мы можем расширить до 2-го порядка (простое обозначает дифференцирование), и отметив, что вторая производная от обратного:

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

Пусть . Тогда имеем:νi=FX1[iN+1]

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

Теперь, специализируясь на нормальном случае, мы имеем

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

Обратите внимание, что И ожидание примерно становится:fX(νi)=1σϕ[Φ1(iN+1)]

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

И наконец:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

Хотя, как заметил @whuber, это не совсем точно. На самом деле я думаю, что это может быть хуже из-за асимметрии бета-версии с различными параметрами


1
«Оценка максимального правдоподобия случайной величины »? Не уверен, что это такое, но я думаю, что вы (почти) рассчитали режим .
кардинал

1
Нечто загадочное происходит на двух третях пути, когда внезапно появляются и без предупреждения или определения. μσ
whuber

2
Я не имею в виду «наваливать», но мне также трудно понять, как количество в скобках может быть аппроксимировано отрицательным числом.
кардинал

1
@probabilityislogic, хотя на уровне исчисления вы можете сказать, что в этом случае мы рассматриваем двумерную функцию и просто максимизируем одну переменную вместо другой, я думаю, что существуют математические, статистические и педагогические причины не называть то, что вы сделали "оценку максимального правдоподобия". Их слишком много, чтобы перечислять в этом пространстве, но я считаю, что достаточно убедительным является то, что мы по какой-то причине используем определенный, загадочный словарь в статистике. Изменение этого на прихоти для единственной проблемы может привести к недоразумению (ям) ... / ...
кардинал

2
@probabilityislogic (+1) для исправленного ответа. Одно предположение, может быть, лучше, чем to означать «подразумевает». Потребовалось несколько секунд разглядывать пару строк, чтобы понять, что вы не претендуете на конвергенцию.
кардинал

13

Ответ Анико опирается на хорошо известную формулу Блома, которая предполагает выбор . Оказывается, что эта формула сама по себе является простым приближением к точному ответу Г. Эльфвинга (1947), Асимптотическое распределение диапазона в образцах из нормальной популяции , Biometrika, Vol. 34, с. 111-119. Формула Эльфвинга нацелена на минимум и максимум выборки, для которой правильный выбор альфа равен . Формула Блома получается, когда мы приближаем на .α=3/8π/8π3

Используя формулу Эльфвинга, а не приближение Блома, мы получаем множитель -2,744165. Это число ближе к точному ответу Эрика П. (-2,746) и приближению Монте-Карло (-2,75), чем приближение Блома (-2,73), но его легче реализовать, чем точную формулу.


Не могли бы вы рассказать немного подробнее о том, как достигается через Эльфвинг (1947)? Это не очевидно в статье. α=π/8
Энтони

1
Энтони. Я полагаюсь на учебник «Математическая статистика» Сэмюэля Уилкса, паб. Wiley (1962). Упражнение 8.21 на с. 249 гласит: «Если x_ (1), x_ (n) - это статистика наименьшего и наибольшего порядка для выборки размера n из непрерывного cdf F (x) ... случайная величина 2n * sqrt {[F (x_ ( 1))] [1-F (x_ (n))]} имеет предельное распределение как n -> бесконечность, со средним пи / 2 и дисперсией 4- (пи ^ 2) / 4. " (Извините, я не знаю код разметки!) Для симметричного распределения F (x_ (1)) = 1-F (x_ (n)). Таким образом, F (x_ (n)) составляет около pi / (4n), или x_ (n) составляет около F ^ (- 1) (pi / (4n)). Формула Блома использует приближение 3 / (4n).
Хэл М. Свиткай,

Это напоминает мне о печально известном законопроекте " ", приписанном законодательному органу штата Индиана. (Хотя статья в википедии предполагает, что популярная версия этой истории не точна.)π=3
steveo'america

7

В зависимости от того, что вы хотите сделать, этот ответ может или не может помочь - я получил следующую точную формулу из пакета статистики Maple .

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

Само по себе это не очень полезно (и, вероятно, его можно получить довольно легко вручную, так как это минимум из случайных величин), но оно позволяет быстро и очень точно приближать данные значения - гораздо более точно, чем Монте-Карло:nn

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

дает -2,746042447 и -2,746042447451154492412344 соответственно.

(Полное раскрытие - я поддерживаю этот пакет.)


1
@ProbabilityIsLogic вывел этот интеграл для всей статистики заказов в первой половине своего ответа.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.