Как я могу аналитически доказать, что случайное деление суммы приводит к экспоненциальному распределению (например, дохода и богатства)?


36

В этой текущей статье в НАУКЕ предлагается следующее:

Предположим, вы случайным образом поделили доход в 500 миллионов на 10 000 человек. Есть только один способ дать всем равные 50 000 акций. Так что, если вы распределяете прибыль случайно, равенство крайне маловероятно. Но есть бесчисленное множество способов дать нескольким людям много денег, а многим - мало или ничего. Фактически, учитывая все способы, которыми вы могли бы разделить доход, большинство из них производят экспоненциальное распределение дохода.

Я сделал это с помощью следующего кода R, который, кажется, подтверждает результат:

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99)))

fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE)

введите описание изображения здесь

Мой вопрос
Как я могу аналитически доказать, что полученное распределение действительно экспоненциально?

Приложение
Спасибо за ваши ответы и комментарии. Я подумал о проблеме и придумал следующие интуитивные рассуждения. В основном происходит следующее (Осторожно: впереди упрощение): вы как бы идете вдоль суммы и подбрасываете (смещенную) монету. Каждый раз, когда вы получаете, например, головы, вы делите сумму. Вы распределяете полученные разделы. В дискретном случае подбрасывание монеты следует биномиальному распределению, перегородки распределены геометрически. Непрерывными аналогами являются распределение Пуассона и экспоненциальное распределение соответственно! (По той же причине интуитивно становится понятно, почему геометрическое и экспоненциальное распределение обладают свойством без памяти - потому что у монеты тоже нет памяти).


3
Если вы отдаете деньги один за другим, есть много способов распределить их равномерно, и еще много, чтобы распределить их почти равномерно (например, распределение, которое является почти нормальным и имеет среднее значение и стандартное отклонение, близкое к 224 )50000224
Генри

@ Генри: Не могли бы вы описать эту процедуру немного больше. Особенно что вы подразумеваете под "один за другим"? Возможно, вы могли бы даже предоставить свой код. Спасибо.
vonjd

vonjd: начните с 500 миллионов монет. Выделите каждую монету независимо и случайным образом между 10 тысячами людей с равной вероятностью. Сложите, сколько монет получает каждый человек.
Генри

@Henry: оригинальное утверждение было то, что большинство способов распределить денежные средства приводят к экспоненциальному распределению. Способы распределения наличных денег и способы распределения монет не являются изоморфными, поскольку существует только один способ равномерно распределить 500 000 000 долларов США среди 10 000 человек (давайте каждые 50 000 долларов США), но есть 500 000 000! / ((50 000!) ^ 10 000) способов раздачи 50000 монет каждому из 10000 человек.
суперкат

1
@ Генри В сценарии, который вы описали в самом верхнем комментарии, с самого начала устанавливается, что каждый человек имеет равную вероятность получить монету. Это условие эффективно придает огромный вес нормальному распределению, а не в равной степени рассматривает различные способы распределения монет.
Highgsss

Ответы:


27

Чтобы упростить задачу, давайте рассмотрим случай, когда допустимые значения доли каждого человека являются дискретными, например, целые числа. Эквивалентно, можно также представить разделение «оси дохода» на равные интервалы и аппроксимацию всех значений, попадающих в данный интервал, по средней точке.

Обозначая общий доход как , разрешенное s-е значение как x s , общее количество людей как N , и, наконец, число людей с долями x s как n s , должны выполняться следующие условия: C 1 ( { N сек } ) Е сек н ы - N = 0 , и C 2 ( { N сек } ) Е сек п ыXsxsNxsns

C1({ns})snsN=0,
C2({ns})snsxsX=0.

Обратите внимание, что много разных способов разделения доли могут представлять одно и то же распределение. Например, если бы мы поделили 4 доллара между двумя людьми, 3 доллара для Алисы и 1 доллар для Боба и наоборот дали бы одинаковое распределение. Поскольку деление является случайным, распределение с максимальным количеством соответствующих способов деления доли имеет наилучшие шансы.

Чтобы получить такое распределение, нужно максимизировать соответствии с двумя ограничениями приведены выше. Метод множителей Лагранжа является каноническим подходом к этому. Кроме того, можно выбрать работу сlnWвместо самогоW, так как «ln» является монотонно возрастающей функцией. То есть, перW

W({ns})N!sns!,
lnWWln гдеλ1,2собой множители Лагранжа. Обратите вниманиечтосоответствии сформулой Стирлинга, перп! nlnn-n, что приводит к dlnn!
lnWns=λ1C1ns+λ2C1ns=λ1+λ2xs,
λ1,2
lnn!nlnnn,
Таким образом, lnW
dlnn!dnlnn.
Из этого следует, что nsexp(-λ1-λ2xs), что является экспоненциальным распределением. Можно получить значения множителей Лагранжа, используя ограничения. Из первого ограничения, N
lnWnslnns.
nsexp(λ1λ2xs),
гдеΔx- расстояние между допустимыми значениями. Точно так же X
N=snssexp(λ1λ2xs)1Δx0exp(λ1λ2x)dx=1λ2Δxexp(λ1),
Δx Следовательно, мы имеем exp(-λ1)=N2Δx
X=snsxssxsexp(λ1λ2xs)1Δx0xexp(λ1λ2x)dx=1λ22Δxexp(λ1).
и λ2=Н
exp(λ1)=N2ΔxX,
То, что это действительно максимум, а не минимум или седловая точка, видно из гессианаlnW-λ1C1-λ2C2. ПосколькуC1,2являются линейными поns, оно такое же, как уlnW: l 2 lnW
λ2=NX.
lnWλ1C1λ2C2C1,2nslnW и 2перВт
2lnWns2=1ns<0,
Следовательно, гессиан вогнут, и то, что мы нашли, действительно является максимумом.
2lnWnsnr=0(sr).

W({ns})W({ns})ns1ns

N1023


1
Спасибо, пожалуйста, посмотрите ответ Glen_b. Это согласуется с вашим ответом?
vonjd

2
@vonjd Добро пожаловать! Я думаю, что его ответ согласуется с моим. Мне кажется, что он проводит аналогию с пуассоновским процессом в следующем смысле: рассмотрим пуассоновский процесс со «средним временным интервалом» 50 000 и подсчитаем 10 000 событий. Тогда, в среднем, «общий временной интервал» составляет 50 000 x 10 000 = 500 миллионов.
Highgsss

2
@vonjd Я обновил свой ответ. В частности, я добавил обсуждение о том, что распределение, которое мы обычно наблюдаем, является чем-то близким к наиболее вероятному.
Higgsss

2
При рассмотрении отдельных случаев, было бы полезно заметить, что T вещей можно разделить между N людьми ((N + T-1) и выбрать (N-1)) способами? Если первый человек получает f вещей, количество способов, которыми можно распределить остаток, ((N + Tf-2) выберите (N-2)); сумма этого для значений f от 0 до N является общим количеством способов распределения всего.
суперкат

1
TN,ff(N+Tf2)(N2)=(N+Tf2)!/(N2)!/(Tf)! (N+Tf2)!/(Tf)!(Tf)N2TN2e(N2)f/T

17

Фактически вы можете доказать, что это не экспоненциально, а почти тривиально:

500500

Тем не менее, это не так сложно понять, что для вашего примера с равномерным зазором он должен быть близким к экспоненциальному.

Рассмотрим процесс Пуассона, когда события происходят случайным образом в некотором измерении. Количество событий на единицу интервала имеет распределение Пуассона, а разрыв между событиями экспоненциальный.

Если взять фиксированный интервал, то события в пуассоновском процессе, которые попадают в него, равномерно распределены в интервале. Смотрите здесь .

[Тем не менее, обратите внимание, что, поскольку интервал конечен, вы просто не можете наблюдать большие промежутки, чем длина интервала, и промежутки почти такого размера будут маловероятными (рассмотрим, например, в единичном интервале - если вы видите промежутки 0,04 и 0.01, следующий пробел, который вы видите, не может быть больше 0.95).]

n

nn+1n

Более конкретно, любой разрыв, который начинается в интервале, размещенном над процессом Пуассона, имеет шанс «подвергнуться цензуре» (эффективнее, сократить короче, чем он был бы в противном случае), запустив конец интервала.

введите описание изображения здесь

Более длинные промежутки делают это с большей вероятностью, чем более короткие, и чем больше промежутки в интервале, тем меньше должна быть средняя длина промежутка - чем больше короткие промежутки. Эта тенденция к «обрезанию» будет иметь тенденцию влиять на распределение более длинных промежутков, чем коротких (и нет никаких шансов, что какой-либо разрыв, ограниченный интервалом, превысит длину интервала - поэтому распределение размера промежутка должно плавно уменьшаться в ноль при размере всего интервала).

На диаграмме более длинный интервал в конце сокращен, а относительно более короткий интервал в начале также короче. Эти эффекты смещают нас от экспоненциальности.

n

n

Вот симуляция распределения зазоров при n = 2:

введите описание изображения здесь

Не очень экспоненциально.

n1n+1

введите описание изображения здесь

exp(21x)

введите описание изображения здесь

Nзнак равно10000


2
Так что просто чтобы правильно вас понять: вы говорите, что это не экспоненциально?!? Higgsss доказывает выше, что это экспоненциально!
vonjd

3
Позвольте мне процитировать мой ответ: (i) «вы можете доказать, что это на самом деле не экспоненциально», НО (ii) для одинаковых пробелов, которые вы рассматривали «... оно должно быть близко к экспоненциальному» ... », если n не слишком маленький." ... что неясно?
Glen_b

5
Nsехр(-λ1-λ2Иксs)

2
Я думаю, что этот ответ - отличный способ взглянуть на проблему и заслуживает большего количества голосов. Тем не менее, я боюсь, что то, как работает аналогия с пуассоновским процессом (например, каково «время»), может показаться неясным. Хотели бы вы дать более подробную информацию?
Higgsss

3
@higgsss Я немного переписал (удалив ссылку на время), добавил немного деталей и ссылку. Я могу добавить еще немного обсуждения позже. Если у вас есть какие-то конкретные предложения, мне было бы интересно улучшить мой ответ.
Glen_b

8

Давайте предположим, что деньги делятся бесконечно, поэтому мы можем иметь дело с действительными числами, а не с целыми числами.

Tзнак равно500000000Nзнак равно10000

п(Икс)знак равноN-1T(1-ИксT)N-2
0ИксT
п(ИксИкс)знак равно1-(1-ИксT)N-1,

ИксTT-ИксNN-1Nзнак равно2Nзнак равно1

N вам, вероятно, будет трудно отличить их эффекты от экспоненциального распределения с параметром, близким к NT, Распределение асимптотически экспоненциально, потому что(1-Yм)мехр(-Y) как м,


8

Сказать «предположим, что вы случайно поделили 500 миллионов доходов на 10 000 человек» недостаточно для ответа на вопрос. Существует много разных случайных процессов, которые можно использовать для выделения фиксированной суммы денег фиксированному числу людей, и каждый из них будет иметь свои особенности для конечного распределения. Вот три генеративных процесса, о которых я мог думать, и распределение богатства, которое каждый создает.

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

Метод 1, опубликованный OP:

Выберите числа 'p' из [0, w) равномерно случайным образом. Сортируй это. Добавьте «0» вперед. Раздайте суммы в долларах, представленные различиями между последовательными элементами в этом списке.

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45,
     xlim = c(0, quantile(d, 0.99)))
fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", 
      pch=16, add = TRUE)

равномерные интервалы

Способ 2:

Выбирайте числа «p» из [0, w) равномерно случайным образом. Рассмотрим эти «веса», так что «w» на самом деле не имеет значения на данном этапе. Нормализовать вес. Раздайте суммы в долларах, представленные долей 'w', соответствующей каждому весу.

d <- runif(p,max=w) #weigh-distribution
d <- d/sum(d)*w #wealth-distribution
h <- hist(d, col="red", main="pretty uniform", freq = FALSE, breaks = 45, 
          xlim = c(0, quantile(d, 0.99)))

пересчитанные веса

Способ 3:

Начните с 'p' 0s. W раз, добавьте 1 к одному из них, выбранных случайным образом.

d <- rep(0, p)
for( i in 1:5000000){ ## for-loops in R are terrible, but this gives the idea.
    k <- floor(runif(1, max=p)) + 1    
    d[k] = (d[k] + 1)
}
h <- hist(d, col="red", main="kinda normalish?", freq = FALSE, breaks = 45,
          xlim = c(0, quantile(d, 0.99)))

итерационные доллары


4

Позвольте мне добавить кое-что относительно вашего приложения.

В непрерывном случае, как указано Glen_b и Генри, точный PDF для суммы, которую получает каждый человек,

п(Икс)знак равноN-1Икс(1-ИксИкс)N-2,
где N количество людей, и Икс это общая сумма денег.

В дискретном случае, предполагая, что есть M раздача монет, вероятность получения конкретным человеком м монеты

п(м)знак равноN-1M+1ΠJзнак равно0N-3(1-мM-J)N-2,
когда M»NДва случая согласуются друг с другом. Для достаточно большогоN и пока мы держимся в стороне от хвоста, они выглядят как экспоненциальные распределения.

В обоих случаях, как мы пробуем N раз от этого истинного распределения вероятности, будет ошибка, связанная с конечным размером выборки.

Однако выполнение анализа ошибок не кажется простым, поскольку различные выборки в этом случае не являются независимыми. Они должны суммировать до общей суммы, и то, сколько получает первый человек, влияет на распределение вероятностей для второго человека и так далее.

Мой предыдущий ответ не страдает от этой проблемы, но я думаю, что было бы полезно посмотреть, как ее можно решить с помощью этого подхода.


3

Хороший теоретический анализ, проведенный с помощью ответов, полученных голосованием. Однако, вот мой простой эмпирический взгляд на то, почему распределение экспоненциально.

Когда вы распределяете деньги случайным образом , давайте рассмотрим, как вы делаете это один за другим. Пусть S будет исходной суммой.

Для первого человека вы должны выбрать случайную сумму от 0 до S. Таким образом, в среднем вы выберете S / 2 и останетесь с S / 2.

Для второго человека вы бы выбрали случайным образом от 0 до, в среднем, S / 2. Таким образом, в среднем вы выберете S / 4 и останетесь с S / 4.

Таким образом, вы в основном делите сумму пополам каждый раз (статистически).

Хотя в реальном примере у вас не будет непрерывно уменьшенных вдвое значений, это показывает, почему следует ожидать, что распределение будет экспоненциальным.


3
Ваш алгоритм десятков, чтобы дать больше денег первому человеку, чем любому другому. Есть другие подходы, которые не имеют этого смещения.
Генри

@ Генри Как еще ты мог бы начать делиться деньгами? Вы должны начать с кого-то. И когда вы делаете, у вас есть вся сумма перед вами. Давать ему случайную долю буквально означает случайный выбор из всей суммы. Нельзя сказать, что предположение о наличии «первого человека» неверно, потому что в противном случае тот, кто делит деньги, просто разделил бы сумму на число мужчин, так как он заранее знает, сколько там людей. Это только моя точка зрения: когда вы говорите, что делите деньги «случайным образом», просто один человек получит больше денег
Богдан Александру

Богдан Александру: Мой алгоритм (другой ответ) имеет особенность, заключающуюся в том, что распределение для каждого человека одинаково, независимо от того, выбраны они первыми, в середине или в конце. Это также соответствует равномерной плотности по всему пространству, ограниченному общей выделяемой суммой.
Генри
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.