Распределение наибольшего фрагмента сломанной палки (промежутки)


21

Пусть палка длиной 1 разбита на k+1 фрагменты равномерно случайным образом. Каково распределение длины самого длинного фрагмента?

Более формально, пусть (U1,Uk) будет IID U(0,1) , и (U(1),,U(k)) будет ассоциированная статистика порядка, т.е. мы просто упорядочим выборку в таком виде таким образом, что U(1)U(2),,U(k) . ПозволятьZk=max(U(1),U(2)U(1),,U(k)U(k1),1U(k)) .

Я заинтересован в распределении Zk . Моменты, асимптотические результаты или приближения для k также интересны.


9
Это хорошо изученная проблема; см. Р. Пайк (1965), «Spacings», JRSS (B) 27 : 3, с. 395-449. Я постараюсь вернуться, чтобы добавить информацию позже, если кто-то не побьет меня. Есть также статья 1972 года того же автора (« Пересмотр пробелов »), но я думаю, что вы ищете, в основном, все в первом. Есть некоторая асимптотика в Devroye (1981) , «Законы повторного логарифма для статистики порядка равномерных расстояний» Ann. Вероятно. , 9 : 5, 860-867.
Glen_b

4
Они также должны дать хорошие условия поиска, чтобы найти работу позже, если она вам понадобится.
Glen_b

3
Это круто. Первую ссылку найти сложно. Для тех, кто заинтересован, я положил его на Великий Локус .
gui11aume

Пожалуйста, исправьте опечатку: Y(k) вместо U(k) .
Виктор

Спасибо @Viktor! Для таких мелких вещей, не стесняйтесь делать редактирование самостоятельно (я думаю, что оно будет рассмотрено другими пользователями для одобрения).
gui11aume

Ответы:


18

С информацией, предоставленной @Glen_b, я смог найти ответ. Используя те же обозначения, что и вопрос

P(Zkx)=j=0k+1(k+1j)(1)j(1jx)+k,

где если a > 0 и 0 в противном случае. Я также даю ожидание и асимптотическую сходимость к распределению Гамбеля ( NB : не бета)a+=aa>00

E(Zk)=1k+1i=1k+11ilog(k+1)k+1,P(Zkx)exp(e(k+1)x+log(k+1)).

Материал доказательств взят из нескольких публикаций, ссылки на которые приведены в ссылках. Они несколько длинные, но прямые.

1. Доказательство точного распределения

Пусть - IID равномерных случайных величин в интервале ( 0 , 1 ) . Упорядочив их, мы получаем статистику k порядка, обозначенную ( U ( 1 ) , , U ( k ) ) . Равномерное расстояние определяется как Δ i = U ( i ) - U ( i - 1 ) , где U ((U1,,Uk)(0,1)k(U(1),,U(k))Δi=U(i)U(i1)иU(0)=0 . Упорядоченные интервалы - это соответствующие упорядоченные статистические данные Δ ( 1 )Δ ( k + 1 ) . Интересующая переменная Δ ( k + 1 ) .U(k+1)=1Δ(1)Δ(k+1)Δ(k+1)

For fixed x(0,1), we define the indicator variable 1i=1{Δi>x}. By symmetry, the random vector (11,,1k+1) is exchangeable, so the joint distribution of a subset of size j is the same as the joint distribution of the first j. By expanding the product, we thus obtain

P(Δ(k+1)x)=E(i=1k+1(11i))=1+j=1k+1(k+1j)(1)jE(i=1j1i).

E(i=1j1i)=(1jx)+k, which will establish the distribution given above. We prove this for j=2, as the general case is proved similarly.

E(i=121i)=P(Δ1>xΔ2>x)=P(Δ1>x)P(Δ2>x|Δ1>x).

If Δ1>x, the k breakpoints are in the interval (x,1). Conditionally on this event, the breakpoints are still exchangeable, so the probability that the distance between the second and the first breakpoint is greater than x is the same as the probability that the distance between the first breakpoint and the left barrier (at position x) is greater than x. So

P(Δ2>x|Δ1>x)=P(all points are in (2x,1)|all points are in (x,1)),soP(Δ2>xΔ1>x)=P(all points are in (2x,1))=(12x)+k.

2. Expectation

For distributions with finite support, we have

E(X)=P(X>x)dx=1P(Xx)dx.

Integrating the distribution of Δ(k+1), we obtain

E(Δ(k+1))=1k+1j=1k+1(k+1j)(1)j+1j=1k+1j=1k+11j.

Hi=1+12++1i

Hk+1=011+x++xkdx=011xk+11xdx.

With the change of variable u=1x and expanding the product, we obtain

Hk+1=01j=1k+1(k+1j)(1)j+1uj1du=j=1k+1(k+1j)(1)j+1j.

3. Alternative construction of uniform spacings

In order to obtain the asymptotic distribution of the largest fragment, we will need to exhibit a classical construction of uniform spacings as exponential variables divided by their sum. The probability density of the associated order statistics (U(1),,U(k)) is

fU(1),U(k)(u(1),,u(k))=k!,0u(1)u(k+1).

If we denote the uniform spacings Δi=U(i)U(i1), with U(0)=0, we obtain

fΔ1,Δk(δ1,,δk)=k!,0δi++δk1.

By defining U(k+1)=1, we thus obtain

fΔ1,Δk+1(δ1,,δk+1)=k!,δ1++δk=1.

Now, let (X1,,Xk+1) be IID exponential random variables with mean 1, and let S=X1++Xk+1. With a simple change of variable, we can see that

fX1,Xk,S(x1,,xk,s)=es.

Define Yi=Xi/S, such that by a change of variable we obtain

fY1,Yk,S(y1,,yk,s)=skes.

Integrating this density with respect to s, we thus obtain

fY1,Yk,(y1,,yk)=0skesds=k!,0yi++yk1,and thusfY1,Yk+1,(y1,,yk+1)=k!,y1++yk+1=1.

So the joint distribution of k+1 uniform spacings on the interval (0,1) is the same as the joint distribution of k+1 exponential random variables divided by their sum. We come to the following equivalence of distribution

Δ(k+1)X(k+1)X1++Xk+1.

4. Asymptotic distribution

Using the equivalence above, we obtain

P((k+1)Δ(k+1)log(k+1)x)=P(X(k+1)(x+log(k+1))X1++Xk+1k+1)=P(X(k+1)log(k+1)x+(x+log(k+1))Tk+1),

where Tk+1=X1++Xk+1k+11. This variable vanishes in probability because E(Tk+1)=0 and Var(log(k+1)Tk+1)=(log(k+1))2k+10. Asymptotically, the distribution is the same as that of X(k+1)log(k+1). Because the Xi are IID, we have

P(X(k+1)log(k+1)x)=P(X1x+log(k+1))k+1=(1exlog(k+1))k+1=(1exk+1)k+1exp{ex}.

5. Graphical overview

The plot below shows the distribution of the largest fragment for different values of k. For k=10,20,50, I have also overlaid the asymptotic Gumbel distribution (thin line). The Gumbel is a very bad approximation for small values of k so I omit them to not overload the picture. The Gumbel approximation is good from k50.

Distribution of the largest fragment of a broken stick

6. References

The proofs above are taken from references 2 and 3. The cited literature contains many more results, such as the distribution of the ordered spacings of any rank, their limit distribution and some alternative constructions of the ordered uniform spacings. The key references are not easily accessible, so I also provide links to the full text.

  1. Bairamov et al. (2010) Limit results for ordered uniform spacings, Stat papers, 51:1, pp 227-240
  2. Holst (1980) On the lengths of the pieces of a stick broken at random, J. Appl. Prob., 17, pp 623-634
  3. Pyke (1965) Spacings, JRSS(B) 27:3, pp. 395-449
  4. Renyi (1953) On the theory of order statistics, Acta math Hung, 4, pp 191-231

Brilliant. By the way, is there a known asymptotics to E(Zk2)?
Amir Sagiv

@AmirSagiv this is a good question. I had a quick look at the references and I could not find it. I could also not adapt the proof above. This made me realize that I don't know what the distribution of a square of a Gumbel is. Perhaps a good place to start?
gui11aume

1
$gui11aume Look here : mathoverflow.net/a/293381/42864
Amir Sagiv

1
@AmirSagiv This is a very good post. For some reason, I misunderstood your question and thought you were interested in the asymptotic distribution of Zk2 (even though your comment was very clear), so my comment above is not so relevant.
gui11aume

3

This is not a complete answer, but I did some quick simulations, and this is what I obtained: Histogram of the longest fragment

This looks remarkably beta-ish, and this makes a bit of sense, since the order statistics of i.i.d. uniform distributions are beta wiki.

This might give some starting point to derive the resulting p.d.f..

I'll update if I get to a final closed solution.

Cheers!


Just one more thing, the shape of histogram for increasing k doesn't change considerably, apart from getting "squished" close to 0.
Lima

1
Thank you for your thoughts @Lima (and welcome to Cross Validated). I think your answer can be improved. First, I would refrain from making statements without proof. If this is incorrect, you may put the people who see this thread on the wrong track. Second, I would document what you did. Without the value of k that you used nor the code, the figure does not help anybody. Finally, I would copy-edit the answer and remove everything that is not directly answering the question.
gui11aume

1
Thanks for the suggestions. They're valid beyond stack exchange, and I'll remember to use them.
Lima

1

Я подготовил ответ для конференции в Сиене (Италия) в 2005 году. Документ (2006 год) представлен на моем веб-сайте здесь (pdf) . Точные распределения всех расстояний (от самых маленьких до самых больших) приведены на страницах 75 и 76.

Я надеюсь выступить с докладом на эту тему на конференции RSS в Манчестере (Англия) в сентябре 2016 года.


2
Welcome to the site. We are trying to build a permanent repository of high-quality statistical information in the form of questions & answers. Thus, we're wary of link-only answers, due to linkrot. Can you post a full citation & a summary of the information at the link, in case it goes dead? Also, please don't sign your posts here. Every post has a link to your userpage where you can post that information.
gung - Reinstate Monica
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.