Ответ: Θ(mnlogn−−−−−√).
Применяя многомерный вариант центральной предельной теоремы, мы получаем, что вектор имеет асимптотически многомерное гауссово распределение с
V a r [ X i ] = m ( 1).(X1,…,Xn)
и
СоV(хя,ХJ)=-м/п2.
Ниже мы будем предполагать, чтоXявляетсягауссовским вектором (а не только приблизительно гауссовским вектором). Добавим гауссовскую случайную величинуZс дисперсиейm/n2ко всемXi(Zне зависит от всехXi). То есть пусть
( Y 1 Y 2 ⋮
Var[Xi]=m(1n−1n2),
Cov(Xi,Xj)=−m/n2.
X Zm/n2XiZXi
Мы получаем гауссов вектор
(Y1,…,Yn). Теперь у каждого
Yiесть дисперсия
m/n:
Var[Yi]=Var[Xi]+ 2 C o⎛⎝⎜⎜⎜⎜Y1Y2⋮Yn⎞⎠⎟⎟⎟⎟=⎛⎝⎜⎜⎜⎜X1+ZX2+Z⋮Xn+Z⎞⎠⎟⎟⎟⎟.
(Y1,…,Yn)Yim/n
и все
Yiнезависимы:
Cov(Yi,Yj)=Cov(Xi,Xj)+ C o v ( X i , Z ) + C o v ( X j , Z ) ⏟Var[Yi]=Var[Xi]+2Cov(Xi,Z)=0+Var[Z]=m/n,
YiCov(Yi,Yj)=Cov(Xi,Xj)+Cov(Xi,Z)+Cov(Xj,Z)=0+Cov(Z,Z)=0.
Обратите внимание, что . Таким образом, наша исходная задача эквивалентна задаче нахождения Y m a x - Y s e c - m a x . Сначала для простоты проанализируем случай, когда все Y i имеют дисперсию 1 .Yi−Yj=Xi−XjYmax−Ysec−maxYi1
Проблема. Нам дано независимых гауссовских rv γ 1 , … , γ n со средним μ и дисперсией 1 . Оценить ожидание γ m a x - γ s e c - m a x .nγ1,…,γnμ1γmax−γsec−max
Ответ: .Θ(1logn√)
Неофициальное доказательство.
Вот неофициальное решение этой проблемы (не трудно сделать это формальным). Поскольку ответ не зависит от среднего, мы предполагаем, что . Пусть ˉ Φ ( t ) = Pr [ γ > t ] , где γ ∼ N ( 0 , 1 ) . Имеем (при умеренно большом t )
ˉ Φ ( t ) ≈ 1μ=0Φ¯(t)=Pr[γ>t]γ∼N(0,1)t
Φ¯(t)≈12π−−√te−12t2.
Обратите внимание, что
равномерно и независимо распределены на [ 0 , 1 ] ,Φ(γi)[0,1]
является наименьшим среди Φ ( γ i ) ,Φ(γmax)Φ(γi)
является вторым наименьшим среди Φ ( γ i ) .Φ(γsec−max)Φ(γi)
Φ(γmax)1/nΦ(γmax)2/nΦ¯(t)
2≈Φ¯(γsec−max)/Φ¯(γmax)≈e12(γ2max−γ2sec−max).
γ2max−γ2sec−maxΘ(1)γmax≈γsec−max=Θ(logn−−−−√)
γmax−γsec−max≈Θ(1)γmax+γsec−max≈Θ(1)logn−−−−√.
QED
We get that
E[Xmax−Xsec−max]=E[Ymax−Ysec−max]=Var[Yi]−−−−−−√×E[γmax−γsec−max]=Θ(mnlogn−−−−−−√).
The same argument goes through when we have arbitrary scores. It shows that
E[Xmax−Xsec−max]=cE[Xmax−Xmin]/logn.