Анализ шаров и бинов в режиме


23

mnmnXiiXmaxXminXsecmaxXiXjN(0,2m/n)|XiXj|=Θ(m/n) i,jXmaxXmin=O(mlogn/n)n/2 пары непересекающихся корзин. Этот (не совсем формальный) аргумент заставляет нас ожидать, что разрыв между и является с высокой вероятностью.XmaxXminΘ(mlogn/n)

Меня интересует разрыв между и . Приведенный выше аргумент показывает, что с большой вероятностью, но фактор кажется посторонним , Известно ли что-нибудь о распределении ?XmaxXsecmaxXmaxXsecmax=O(mlogn/n)lognXmaxXsecmax

В более общем случае, предположим, что каждый мяч связан с неотрицательным счетом для каждого бина, и нас интересует общий счет каждого бина после броска шаров. Обычный сценарий соответствует оценкам вида . Предположим, что распределение вероятностей оценок является инвариантным при перестановке бинов (в обычном сценарии это соответствует тому факту, что все бины равновероятны). Учитывая распределение оценок, мы можем использовать метод первого абзаца, чтобы получить хорошую оценку . Граница будет содержать коэффициентm(0,,0,1,0,,0)XmaxXminlognэто происходит от границы объединения (через хвостовые вероятности нормальной переменной). Можно ли уменьшить этот фактор, если мы заинтересованы в ограничении ?XmaxXsecmax


Каждый счет в [0,1]?
Нил Янг

Это не имеет большого значения, вы всегда можете масштабировать его так, чтобы оно было в [0,1] .
Юваль Фильмус

Ответы:


21

Ответ: Θ(mnlogn).

Применяя многомерный вариант центральной предельной теоремы, мы получаем, что вектор имеет асимптотически многомерное гауссово распределение с V a r [ X i ] = m ( 1).(X1,,Xn) и СоV(хя,ХJ)=-м/п2. Ниже мы будем предполагать, чтоXявляетсягауссовским вектором (а не только приблизительно гауссовским вектором). Добавим гауссовскую случайную величинуZс дисперсиейm/n2ко всемXi(Zне зависит от всехXi). То есть пусть ( Y 1 Y 2

Var[Xi]=m(1n1n2),
Cov(Xi,Xj)=m/n2.
X Zm/n2XiZXi Мы получаем гауссов вектор(Y1,,Yn). Теперь у каждогоYiесть дисперсияm/n: Var[Yi]=Var[Xi]+ 2 C o
(Y1Y2Yn)=(X1+ZX2+ZXn+Z).
(Y1,,Yn)Yim/n и всеYiнезависимы: Cov(Yi,Yj)=Cov(Xi,Xj)+ C o v ( X i , Z ) + C o v ( X j , Z )
Var[Yi]=Var[Xi]+2Cov(Xi,Z)=0+Var[Z]=m/n,
Yi
Cov(Yi,Yj)=Cov(Xi,Xj)+Cov(Xi,Z)+Cov(Xj,Z)=0+Cov(Z,Z)=0.

Обратите внимание, что . Таким образом, наша исходная задача эквивалентна задаче нахождения Y m a x - Y s e c - m a x . Сначала для простоты проанализируем случай, когда все Y i имеют дисперсию 1 .YiYj=XiXjYmaxYsecmaxYi1

Проблема. Нам дано независимых гауссовских rv γ 1 , , γ n со средним μ и дисперсией 1 . Оценить ожидание γ m a x - γ s e c - m a x .nγ1,,γnμ1γmaxγsecmax

Ответ: .Θ(1logn)

Неофициальное доказательство. Вот неофициальное решение этой проблемы (не трудно сделать это формальным). Поскольку ответ не зависит от среднего, мы предполагаем, что . Пусть ˉ Φ ( t ) = Pr [ γ > t ] , где γ N ( 0 , 1 ) . Имеем (при умеренно большом t ) ˉ Φ ( t ) 1μ=0Φ¯(t)=Pr[γ>t]γN(0,1)t

Φ¯(t)12πte12t2.

Обратите внимание, что

  • равномерно и независимо распределены на [ 0 , 1 ] ,Φ(γi)[0,1]

  • является наименьшим среди Φ ( γ i ) ,Φ(γmax)Φ(γi)

  • является вторым наименьшим среди Φ ( γ i ) .Φ(γsecmax)Φ(γi)

Φ(γmax)1/nΦ(γmax)2/nΦ¯(t)

2Φ¯(γsecmax)/Φ¯(γmax)e12(γmax2γsecmax2).

γmax2γsecmax2Θ(1)γmaxγsecmax=Θ(logn)

γmaxγsecmaxΘ(1)γmax+γsecmaxΘ(1)logn.

QED

We get that

E[XmaxXsecmax]=E[YmaxYsecmax]=Var[Yi]×E[γmaxγsecmax]=Θ(mnlogn).

The same argument goes through when we have arbitrary scores. It shows that

E[XmaxXsecmax]=cE[XmaxXmin]/logn.

2
Thanks! I'll remember to try the multivariate Gaussian approximation next time.
Yuval Filmus

5
Yury, you wrote "Let us add a Gaussian vector Z with variance m/n2 to all Xi. We get a Gaussian vector (Y1,,Yn). Now each Yi has variance m/n and all Yi are not correlated... Note that YiYj=XiXj." Can you expand on this part? Is Zi=Zj? If the Xi's are dependent, and the Zi's are independent (or uniformly the same), how can the Yi's be independent? (Seems like a neat trick but I don't understand it.) Thanks.
Neal Young

1
@NealYoung, yes, if we have variables X1,,Xn with negative pairwise correlation and all covariances Cov(Xi,Xj) are equal, then we can add a single new random variable Z to all Xi such that the sums are independent. Also, if the variables have positive correlation and again all covariances Cov(Xi,Xj) are equal then we can subtract a single r.v. Z from all of them so that all the differences are independent; but now Z is not independent from Xi but rather Z=α(X1++Xn) for some scaling parameter α.
Yury

1
Ah I see. at least algebraically, all it rests on is the pairwise independence of Z and each Xi. very cool.
Suresh Venkat

1
This argument now appears (with attribution) in an EC'14 paper: dl.acm.org/citation.cfm?id=2602829.
Yuval Filmus

13

For your first question, I think you can show that w.h.p. XmaxXsec-max is

o(mnlog2lognlogn).
Note that this is o(m/n).

Compare your random experiment to the following alternative: Let X1 be the maximum load of any of the first n/2 buckets. Let X2 be the maximum load of any of the last n/2 buckets.

On consideration, |X1X2| is an upper bound on XmaxXsecmax. Also, with probability at least one half, |X1X2|=XmaxXsecmax. So, speaking roughly, XmaxXsecmax is distributed similarly to |X1X2|.

To study |X1X2|, note that with high probability m/2±O(m) balls are thrown into the first n/2 bins, and likewise for the last n/2 bins. So X1 and X2 are each distributed essentially like the maximum load when throwing m=m/2±o(m) balls into n=n/2 bins.

This distribution is well-studied and, luckily for this argument, is tightly concentrated around its mean. For example, if mnlog3n, then with high probability X1 differs from its expectation by at most the quantity displayed at the top of this answer [Thm. 1]. (Note: this upper bound is, I think, loose, given Yuri's answer.) Thus, with high probability X1 and X2 also differ by at most this much, and so Xmax and Xmaxsec differ by at most this much.

Conversely, for a (somewhat weaker) lower bound, if, for any t, say, Pr[|X1X2|t]3/4, then Pr[XmaxXsec-maxt] is at least

Pr[|X1X2|t  XmaxXsec-max=|X1X2|]
which (by the naive union bound) is at least 1(1/4)(1/2)=1/4. I think this should give you (for example) the expectation of XmaxXsec-max within a contant factor.

Looking at Thm. 1, the difference from the expectation is O((m/n)loglogn), and not what you wrote. That's still much better than O((m/n)logn).
Yuval Filmus

By Thm. 1 (its 3rd case), for any ϵ>0, with probability 1o(1), the maximum in any bin (m balls in n bins) is
mn+2mlognn1(1±ϵ)loglogn2logn.
By my math (using 1δ=1O(δ)), the ±ϵ term expands to an additive absolute term of
O(ϵ)mlognn loglognlogn = O(ϵ)mn log2lognlogn.
What am I doing wrong?
Neal Young

Ah - I guess you're right. I subtracted inside the square root and that's how I got my figure.
Yuval Filmus
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.