Интуитивно понятно, почему распределение Пуассона является предельным случаем биномиального распределения


14

В «Анализе данных» Д.С. Сивии происходит вывод распределения Пуассона из биномиального распределения.

Они утверждают, что распределение Пуассона является предельным случаем биномиального распределения при M , где - количество испытаний.M

Вопрос 1: Как интуитивно понять этот аргумент?

Вопрос 2: Почему предел большого в Равен , Где - количество успехов в испытания? (Этот шаг используется при выводе.)MM!N!(MN)!MNN!NM


Ответы:


5

Я попробую простое интуитивное объяснение. Запишите, что для биномиальной случайной величины мы ожидаем, что n p, а дисперсия n p ( 1 - p ) . Теперь подумайте, что X записывает количество событий в очень большом количестве n испытаний, каждое из которых имеет очень малую вероятность p , так что мы очень близки к 1 - p = 1 (на самом деле ). Тогда имеем n p = λXBin(n,p)npnp(1p)Xnp1p=1np=λскажем, и , поэтому среднее значение и дисперсия равны λ . Затем помните, что для распределенной по Пуассону случайной величины мы всегда имеем среднее значение и дисперсию! Это, по крайней мере, аргумент правдоподобия для приближения Пуассона, но не доказательство.np(1p)np1=λλ

Затем посмотрите на это с другой точки зрения - процесс точки Пуассона https://en.wikipedia.org/wiki/Poisson_point_process на реальной линии. Это распределение случайных точек на линии, которое мы получаем, если случайные точки возникают в соответствии с правилами:

  1. точки в непересекающихся интервалах независимы
  2. вероятность случайной точки в очень коротком интервале пропорциональна длине интервала
  3. вероятность двух или более точек на очень коротком интервале практически равна нулю.

Тогда распределение числа точек в данном интервале (не обязательно короткое) является пуассоновским (с параметром пропорциональным длине). Теперь, если мы разделим этот интервал на очень много одинаково очень коротких подинтервалов ( n ), вероятность двух или более точек в данном подинтервале по существу равна нулю, так что число будет иметь в очень хорошем приближении распределение Бернолли, то есть Bin ( 1 , p ) , поэтому сумма всего этого будет Bin ( n , p ) , поэтому хорошее приближение распределения Пуассона числа точек в этом (длинном) интервале.λnBin(1,p)Bin(n,p)

Правка из @Ytsen de Boer (OP): на вопрос № 2 удовлетворительно отвечает @ Łukasz Grad.


6

Позвольте мне предоставить альтернативную эвристику. Я собираюсь показать, как аппроксимировать процесс Пуассона в виде бинома (и доказать, что аппроксимация лучше для многих испытаний с низкой вероятностью). Поэтому биномиальное распределение должно стремиться к распределению Пуассона.

Допустим, события происходят с постоянной скоростью во времени. Мы хотим знать, сколько событий произошло за день, зная, что ожидаемое количество событий равно λ .

Ну, ожидаемое количество событий в час составляет λ/24 . Давайте представим, что это означает, что вероятность события, произошедшего в данный час, составляет λ/24 . [это не совсем верно, но это приличное приближение, если λ/241 основном, если мы можем предположить, что несколько событий не происходят в один и тот же час]. Затем мы можем аппроксимировать распределение числа событий в виде бинома с M=24 испытаниями, каждое из которых имеет вероятность успеха λ/24 .

Мы улучшаем приближение, переключая наш интервал на минуты. Тогда это p=λ/1440 с M=1440 испытаний. Если λ около, скажем, 10, то мы можем быть достаточно уверены, что ни в одну минуту не было двух событий.

Конечно, будет лучше, если мы перейдем на секунды. Теперь мы смотрим на события M=86400 каждое с малой вероятностью λ/86400 .

Независимо от того, насколько велик ваш λ , я в конечном итоге могу выбрать достаточно маленький Δt , так что очень вероятно, что никакие два события не произойдут в одном интервале. Тогда биномиальное распределение, соответствующее этому Δt будет превосходно соответствовать истинному распределению Пуассона.

Единственная причина, по которой они не совпадают, заключается в том, что существует ненулевая вероятность того, что два события происходят в одном и том же интервале времени. Но, учитывая, что есть только около λ событий, и они распределены по некоторому числу бинов, значительно превышающих λ , маловероятно, что любые два из них лежат в одном бине.

Или, другими словами, биномиальное распределение стремится к распределению Пуассона как M , если вероятность успеха является p=λ/M .


5

Вопрос 1

Напомним определение биномиального распределения:

распределение частоты возможного числа успешных результатов в данном количестве испытаний, в каждом из которых есть одинаковая вероятность успеха.

Сравните это с определением распределения Пуассона:

дискретное распределение частоты, которое дает вероятность ряда независимых событий, происходящих в фиксированное время .

Существенная разница между 2 состоит в том, что бином является в испытаниях, Пуассон - в течение периода времени t . Как предел может возникнуть интуитивно?nt

Допустим, вы должны продолжать испытания Бернулли на всю вечность. Более того, вы запускаете в минуту. За минуту ты считаешь каждый успех. Так что на протяжении всей вечности вы запускаете процесс B i n ( p , 30 ) каждую минуту. Более 24 часов, у вас есть B я п ( р , 43200 ) .n=30Bin(p,30)Bin(p,43200)

Когда вы устаете, вас спрашивают: «Сколько успехов произошло с 18:00 до 19:00?». Ваш ответ может быть , то есть вы предоставляете средний успех в час. Для меня это очень похоже на параметр Пуассона λ .3060pλ


5

Вопрос 2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

Таким образом, принимая предел для фиксированной N

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1

+1. Я начал с рассмотрения приближения Стирлинга, но начал бегать кругами. Вы подход намного проще.

Я не думаю, что это то, что ОП найдет интуитивно понятным ...
kjetil b halvorsen

@kjetilbhalvorsen Я пытался использовать простейшую математику можно, интуитивно для больших имеем M M - K для фиксированного к < < MMMMkk<<M
Лукаш Grad

1
@kjetilbhalvorsen Это ответ на вопрос Q2 (шаг деривации), а не вопрос Q1 (интуитивное объяснение)
Бен Болкер,

@TemplateRex Хм , но я думаю , что при доказательстве сходимости точечно мне нужно только , чтобы доказать это для любого фиксированного , а М идут к infiity, не так ли? То есть ω Ом Ит м X м ( ω ) X ( ω )NMωΩlimmXm(ω)X(ω)
Лукаш Град

5

Проблема в том, что ваша характеристика Пуассона как предельного случая биномиального распределения не совсем верна, как указано .

Пуассона является предельным случаем биномиального , когда: Вторая часть важна. Если p остается фиксированным, первое условие подразумевает, что скорость также будет расти без ограничения.

MandMpλ.
p

Распределение Пуассона предполагает, что события редки . Под «редким» мы подразумеваем не то, что скорость событий мала - действительно, пуассоновский процесс может иметь очень высокую интенсивность но скорее, что вероятность события, происходящего в любой момент времени [ t , t + d t ) исчезающе мала. Это в отличие от биномиальной модели, где вероятность p события (например, «успех») фиксирована для любого данного испытания.λ[t,t+dt)p

Для иллюстрации предположим, что мы смоделировали серию независимых испытаний Бернулли, каждое из которых имеет вероятность успеха p , и посмотрим, что происходит с распределением числа успехов X при M . Для любого N, настолько большого, насколько мы пожелаем, и независимо от того, насколько мало p , ожидаемое количество успехов E [ X ] = M p > N для M > N / p.MpXMNpE[X]=Mp>NM>N/p, Иными словами, независимо от того, насколько маловероятна вероятность успеха, в конечном итоге вы сможете достичь среднего числа успехов, которое вам будет угодно, если вы проведете достаточно много испытаний. Таким образом, (или, просто говоря , « M велик») не достаточно , чтобы оправдать модель Пуассона для X .MMX

Нетрудно алгебраически установить в качестве предельного случая Pr [ X = x ] = ( M

Pr[X=x]=eλλxx!,x=0,1,2,
, задав p = λ / M иположив M . Другие ответы здесь обращены к интуиции, стоящей за этими отношениями, а также обеспечили вычислительное руководство. Но важночто р = λ / M . Вы не можете игнорировать это.
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
p=λ/MMp=λ/M

0

Я могу только попытаться ответить частично, и речь идет об интуиции к Вопросу 2, а не о строгом доказательстве.

NM

MMNNMN/N!NN!


-2

Balls falling through layers of pegs

Я думаю, что это лучший пример, который интуитивно объясняет, как биномиальное распределение сходится к нормальному с большим количеством шаров. Здесь каждый шар имеет одинаковую вероятность падения по обе стороны от колышка в каждом слое, и все шары должны иметь одинаковое количество колышков. Легко видеть, что, поскольку количество шариков очень велико, распределение шариков по разным участкам будет похоже на нормальное распределение.

Мой ответ на ваш вопрос 2 совпадает с ответом Лукаша.


2
На самом деле это не ответ на вопрос, а ответ на другой вопрос ...
kjetil b halvorsen

Я попытался интуитивно объяснить, что задано в вопросе 1. Не могли бы вы пояснить, почему вы думаете, что это не ответ на этот вопрос?
samwise_the_wise

1
Sorry, I got the point now. I answered a completely different question. My bad.
samwise_the_wise

1
Я вижу сильно дискретизированную версию биномиального дистрибутива. Почему должно быть очевидно, что распределение шаров в нижней части этого квинкунса должно быть нормальным? Независимо от того, сколько шариков вы пропустили через эту машину, вы все равно получите распределение количества в 13 корзин: это не может быть нормальным!
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.