Обратная проблема дня рождения с несколькими столкновениями


9

Предположим, у вас был год инопланетянина с неизвестной длиной N. Если у вас есть случайная выборка из указанных инопланетян, и у некоторых из них есть общие дни рождения, можете ли вы использовать эти данные для оценки длины года?

Например, в выборке из 100 у вас может быть две тройки (т.е. два дня рождения, каждый из которых разделен на три пришельца) и пять пар и восемьдесят четыре синглета. При оценке N абсолютный минимум равен 91, а максимум неограничен, но как мне найти разумное ожидаемое значение?

Предположения включают такие вещи, как «все дни рождения одинаково вероятны».

В отличие от ответа на другой вопрос, в комнате есть известные столкновения. Любой достаточно долгий год будет иметь большую вероятность отсутствия столкновений для комнаты пришельцев. Но очень длинные годы будут иметь низкие шансы на любые столкновения, а короткие годы будут иметь низкие шансы на несколько столкновений, таким образом обеспечивая (теоретический) диапазон для наиболее вероятных длин года.


3
Мой ответ на специальную версию этого вопроса легко обобщается (с использованием многочленного распределения): см. Stats.stackexchange.com/questions/252813 .
whuber

@Techhead по-разному! Очевидный подход для оценки параметров, который следует упомянуть, - это максимальная вероятность.
Glen_b


1
@whuber Я видел этот вопрос и ваш комментарий, но я не видел, как применить большую его часть к образцу с известными коллизиями. Нетрудно найти расширенную форму, но я не знаю, как найти логарифмическую сумму.
Techhead

1
Я согласен, что ваша версия достаточно сложна, и ее не следует закрывать как дубликат.
whuber

Ответы:


2

Ожидаемое значение распределения рассчитывается как . Для этой задачи мы хотим вычислить распределение N с учетом некоторых критериев столкновения или найти E ( N ) = n = 0 p n n с учетом некоторых критериев столкновения, где p n = P ( N = n ) .Е(Икс)знак равноΣпяИксяNЕ(N)знак равноΣNзнак равно0пNNpn=P(N=n).

Предположим, у вас есть некоторые критерии столкновения, как указано выше, и пусть будет вероятностью того, что критерии столкновения будут выполнены, если длина года равна n . Тогда q n можно найти, просто разделив количество способов, которым критерии столкновения могут быть удовлетворены, на количество способов, которыми дни рождения могут быть организованы в целом. Как только q n найден для каждого возможного n , единственная часть, которая отсутствует, переводит q n в p n .qnn.qnqnnqnpn.

Если предположить, что пропорционально q n , то p n = α q n . Так как Е п = 0 р п = 1 , α Е п = 0 д п = 1 и α = 1pnqnpn=αqn.n=0pn=1αn=0qn=1Поэтому нам просто нужна формула дляqnα=1n=0qn.qn чтобы решить эту проблему.

Для вашего примера, давайте сначала найдем число возможных критериев столкновения при Первый инопланетный синглтон может приземлиться в любой день, поэтому существует n возможностей. Следующий синглтон может приземлиться в любой день, кроме дня рождения первого пришельца, поэтому существует n - 1 возможностей. Завершая это для первых 84 синглетонов, мы получаем n ( n - 1 ) ( n - 2 ) . , , ( n - 83 )N=n.nn1n(n1)(n2)...(n83)возможные пути это может произойти. Обратите внимание, что у нас также есть 5 пар и 2 тройки, поэтому «первый» инопланетянин для каждой группы не должен попадать на пары синглтона. Это приводит к n(n1)(n2)...(n8452+1) способы, которыми эти инопланетяне не сталкиваются (неуклюжий синтаксис для более простого обобщения позже).

Далее, у второго пришельца для данной пары или триплета есть 91 выбор, у следующего - 90 и т. Д., Общее количество способов, которым это может произойти, учитывая дни рождения первых 91 иностранца, составляет . Оставшиеся члены триплетов должны приходиться на дни рождения пар, и вероятность этого составляет 7 * 6 . Мы умножаем вероятности для всего этого вместе, чтобы получить общее количество возможных способов для критериев столкновения, которые будут выполнены как:91(911)(912)...(917+1)76

рNзнак равноN(N-1),,,(N-84-5-2+1)(84+5+2)(84+5+2-1),,,(84+1)(5+2)(5+1)

В этот момент образец ясен, если мы имеем синглтоны, б пар и гр триплеты, заменит 84 с , 5 с Ь , и 2 с с , чтобы получить обобщенную формулу. Я думаю, что также ясно, что число возможных способов организации дней рождения в общем случае составляет n m , где m - общее количество иностранцев в проблеме. Следовательно, вероятность соответствия критериям столкновения - это число способов удовлетворения критериям столкновения, деленное на количество способов рождения инопланетян, или q n = r n.abca,b,cnm .qn=rnnm

Еще одна интересная вещь появилась в формуле . Пусть y n = n ( n - 1 ) . , , ( n - ( a + b + c ) + 1 ) = n !rNи пустьznбудет оставшейся частьюrn,так чтоrn=ynzn. Обратите внимание, чтоznне зависит от n, поэтому мы можем просто записатьzn=zкак константу! Посколькуpn=qn/i = 0 qi, аqn=yn=n(n1)...(n(a+b+c)+1)=n!(n(a+b+c))!znrnrn=ynznznzn=zpn=qn/i=0qi , мы можем фактически вычестьzиз суммы в знаменателе. В этот момент он отменяется с частью из числителя, чтобы получитьpn=ynqn=zynnмz. Мы можем еще больше упроститьyn,если мы допустимs=a+b+c(или это можно рассматривать как число уникальных дней рождения в группе инопланетян), так что мы получим:pn=ynnm/i=0(yiim)yns=a+b+c

pn=n!(ns)!nm/i=0(i!(is)!im)

Теперь мы имеем (довольно) простую формулу для и, следовательно, (довольно) простую формулу для E ( N ) , где было сделано единственное предположение, что P ( N = n ) пропорциональна q n (вероятность встречи критерии столкновения, учитывая, что N = n ). Я думаю, что это справедливое предположение, и кто-то умнее меня мог бы даже доказать, что это предположение связано с P ( N = n ) после многочленного распределения. На данный момент мы можем рассчитатьпNЕ(N)п(Nзнак равноN)QNNзнак равноNп(Nзнак равноN) используя численные методы или сделайте некоторые предположения приближения, поскольку p n будет приближаться к 0, когда n приближается к .Е(N)пNN


Кажется, вы предлагаете рассчитать значение ожидания на основе функции вероятности, а не функции вероятности. Это было намеренно?
Секст Эмпирик

2

Отличный ответ от Коди дает хороший способ выразить функцию правдоподобия для N , число дней в году (или апостериорное распределение на основе плоского априора), вычленяя некоторую часть вероятности, которая не зависит от N .

В этом ответе я хотел бы записать его более кратко, а также предоставить способ вычисления максимума этой функции правдоподобия (а не ожидаемого значения, которое гораздо сложнее вычислить).


Функция правдоподобия для N

Количество способов сделать последовательность a+2б+3с дня рождения из множества N рождения, с тем ограничением , что есть число единичных рождения, б дублирующих дней рождения, и с тройными днями рождения равноaбс

рNзнак равно(Na+б+с)количество способоввыбирать м уникальные дни рожденияснаружи N дней(a+б+с)!a!б!с!количество способовраспространять м дни рожденияamong groups of size ab and с(a+2b+3с)!1!a2!б3!сколичество заказанных способоворганизовать конкретные одиночные, дубликаты и тройкисреди пришельцев знак равноN!(N-a-б-с)!×(a+2б+3с)a!б!с!1!a2!б3!с

и только первый член на правой стороне зависит от n , поэтому, вычеркивая другие члены, мы заканчиваем простым выражением для функции правдоподобия

L(n|a,b,c)=n(a+2b+3c)n!(nabc)!=nmn!(ns)!P(a,b,c|n)

где мы следуем обозначениям Коди и используем m для обозначения числа пришельцев, а s - числа уникальных дней рождения.


Оценка максимального правдоподобия для N

Мы можем использовать эту функцию правдоподобия для получения оценки максимального правдоподобия для N .

Обратите внимание, что

L(n)=L(n1)(n1n)mnns

и максимум будет происходить непосредственно перед n для которого

(n1n)mnns=1

или

s=n(1(11/n)m)

примерно для больших n (используя ряд Лорана, который можно найти, подставив x=1/n и записав ряд Тейлора для x в точке x=0 )

sΣКзнак равно0L(мК)(-N)-К+О(N-(L+1))

Используя только член первого порядка smm(m1)2n вы получаете:

n1(m2)ms

Используя также член второго порядка smm(m1)2n+m(m1)(m2)6n2 вы получите:

n2(m2)+(m2)24(ms)(m3)2(ms)

Так что в случае m=100 пришельцев, среди которыхs=91 уникальных дней рождения, вы получаете приближениеn1550 иn2515.1215 . Когда вы решаете уравнение численно, вы получаетеn=516.82 который мы округляем доn=516 чтобы получить MLE.

сравнивая приближение с истинным MLE

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.