Сколько самых больших слагаемых в


11

Рассмотрим i=1N|Xi| где X1,,XN - iid и CLT имеет место.
Сколько самых больших терминов составляют половину общей суммы?
Например, 10 + 9 + 8 (10 + 9 + 8 + 1) / 2: 30% терминов достигают примерно половины общего числа.

определять
sumbiggest( j;X1XN)sum of the j biggest of |X1||XN|
halfsum(N)the smallest j such that sumbiggest( j )sumbiggest(N)/2.

Существует ли общий асимптотический результат для полусуммы ( N,μ,σ )?
Простой, интуитивный вывод был бы хорош.

(Немного Монте-Карло предполагает, что иногда halfsum ( N ) N / 4 или около того;
то есть наибольшая 1/4 от Xi составляет в сумме половину от общего.
Я получаю 0,24 N для полнормального, 0,19 N для экспоненциальный, для N = 20, 50, 100.)


3
Не ожидайте CLT-подобного универсального результата. Например, ответ для равномерных (0,1) вариаций будет сильно отличаться от ответа для равномерных (1000,1001) вариаций!
whuber

Да, половина будет, конечно, зависеть от среднего и сд. Но почему ~ N / 5 для экспоненциального?
Денис

2
Асимптотически, Denis, отсечка для halfsum будет значение , для которых х 0 т е ( т ) д т = 1 / 2 , где F является PDF для | X я | ; вопрос задает N ( 1 - F ( x ) ) ( F - это cdf для | X i | ). В случае с униформой [ 0 , 1 ]x0xtf(t)dt=1/2f|Xi|N(1F(x))F|Xi|[0,1]распространение вы получите ответ @ Дилип; для экспоненты . x0.186682NN/5
whuber

Ответы:


2

Нет, общего асимптотического результата нет. Пусть будет упорядоченным x i , где x [ 1 ] является наибольшим.x[1]x[N]xix[1]

Рассмотрим следующие два примера:

1) . Ясно, что CLT держит. Вам нужно только M = 1 наблюдение для M j = 1 | x [ j ] | 1P(x=0)=1M=1, j=1M|x[j]|12N|xi|

2) . Ясно, что CLT держит. Вам нужно M = N / 2 наблюдений для M j = 1 | x [ j ] | 1P(x=1)=1M=N/2,j=1M|x[j]|12N|xi|

Для нетривиального примера распределение Бернулли:

3) . Еще раз CLT держит. Вам нужно p N / 2 наблюдений, чтобы удовлетворить ваши условия. Изменяя p между 0 и 1, вы можете получить как можно ближе к примеру 1 или примеру 2.P(x=1)=p, P(x=0)=1ppN/2p


4
Действительно очевидно, что ответ может быть где угодно между и N / 2 , но это не подразумевает отсутствие общего результата. Это означает, что мы должны рассмотреть ответы, где доля зависит от некоторых свойств базового распределения, таких как его среднее значение и SD. Вместе с CLT этого достаточно, чтобы предоставить конкретную и количественную информацию о том, как распределены x [ i ] по сравнению с их суммой, поэтому разумно надеяться на такой результат. 0N/2x[i]
whuber

1

Вот грубый аргумент, дающий немного иную оценку для равномерно распределенных случайных величин. Предположим, что - непрерывные случайные величины, равномерно распределенные на [ 0 , 1 ] . Тогда i X i имеет среднее значение N / 2 . Предположим, что по удивительному и совершенно невероятному совпадению сумма точно равна N / 2 . Поэтому мы хотим оценить, сколько из самых больших значений X составляет до N / 4 или более. Теперь гистограмма из N образцов ( NXi[0,1]iXiN/2N/2XN/4NNочень большой), взятый из равномерного распределения , приблизительно плоский от 0 до 1 , и поэтому для любых x , 0 < x < 1 , есть ( 1 - x ) N выборок, распределенных примерно равномерно между x к 1 , Эти образцы имеют среднее значение ( 1 + x ) / 2 и сумму, равную ( 1 - x ) N (U[0,1]01x0<x<1(1x)Nx1(1+x)/2 . Сумма превышает N / 4 для x 1 / (1x)N(1+x)/2)=(1x2)N/2N/4 . Итак, сумма(1-1/x1/2самых больших выборок превышает N/4.(11/2)N0.3NN/4

iXi=YYx(1x2)N/2=Y/2YN/2N/12Yx=1(Y/N)YY=0Y=N


(0,1)1(0,)Y1,Y2,,Yn+1Ymax=α Y(1),Y(2),,Y(n)равномерно распределены в . См., Например, этот вопрос и ответ на сопутствующем сайте math.SE. (продолжение)(0,α)
Дилип Сарватэ

В любом случае, мой аргумент не использует расстояния между упорядоченными выборками из равномерного распределения.
Дилип Сарватэ

Вы правы, я вас неправильно понял. В качестве побочного вопроса, не являются ли части между равномерно-случайными точками экспоненциально распределенными, после масштабирования - обратными значениями ваших q + a? [Правило сломанной палки из демонстрационного проекта Вольфрама] ( showrations.wolfram.com/BrokenStickRule ), конечно, выглядит экспоненциально, должно быть легкое? Доказательство.
Денис

Пожалуйста, задайте свой вопрос в качестве отдельного вопроса.
Дилип Сарватэ

Начал, потом увидел вероятность-распределения-фрагментов-длин , вы могли бы прокомментировать там.
Денис

0

Давайте предположим, что X имеет только положительные значения, чтобы избавиться от абсолютного значения.

Без точного доказательства, я думаю, вы должны решить для к

(1FX(k))E(X|X>=k)=12E(X) где F - кумулятивная функция распределения для X

и тогда ответ дается, беря самые высокие значения.n(1FX(k))

Моя логика заключается в том, что асимтотически сумма всех значений выше k должна быть примерно равна

n(1FX(k))E(X|X>=k)

и асимтотически половина общей суммы составляет около

12nE(X) .

Численное моделирование показывает, что результат справедлив для равномерного случая (равномерного в ), где и я получаю . Я не уверен, что результат всегда выполняется или его можно упростить, но я думаю, что он действительно зависит от функции распределения F.F ( k ) = k k = [0,1]F(k)=kk=(12)

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.