Какова вероятность того, что n человек из списка m людей будут случайным образом выбирать x людей из списка y людей?

10

Если я выбираю 232 человека из группы из 363 человек без замены, какова вероятность того, что 2 из списка из 12 конкретных людей будут включены в этот выбор?

Это случайная ничья для ультра гонки, в которой было 363 участника на 232 места. Есть аргумент о том, был ли выбор предвзятым по отношению к определенной группе из 12 человек.

Моя первоначальная попытка рассчитать это состояла в том, что было 232 выбора, 363 возможных выбора. Количество комбинаций любого человека из списка двенадцати: 1 выберите 12 + 2 выберите 12 + ... + 11 выберите 12 + 12 выберите 12. Таким образом 1 выберите 12 + 2 выберите 12 .... / 232 выберите 363 Который в итоге оказывается очень низким числом, которое явно слишком мало.

Как мне рассчитать это?

combinatorics randomness hypergeometric

— сержант
источник

1

Два технических момента. Во-первых, теперь вы имеете дело с вероятностью, а не вероятностью, поскольку результат известен. Во-вторых, не имеет значения, какова теоретическая вероятность, учитывая, что у вас есть результат. Я думаю, что было бы лучше приблизиться к методу, используемому для выбора: как были выбраны выборы? Вам нужно доказать правильность метода, а не правильность результата.

— Мишель

1

Можно было бы рассматривать это как вероятность, Мишель, с целью оценки вероятностей выбора. Это не похоже на случай здесь.

— whuber

Вы должны быть осторожны при использовании простого вычисления гипергеометрического RV, так как 12 человек, которые жалуются, выбраны не случайно. Они жалуются, потому что их не выбрали.

— Парень

10

Я интерпретирую вопрос следующим образом: предположим, что отбор проб был якобы проведен так, как будто в банку было помещено листа белой бумаги, на каждом из которых было указано имя одного человека, и были выбраны случайным образом после тщательного перемешивания содержимого банки. Заранее билетов были окрашены в красный цвет. Какова вероятность того, что ровно два из выбранных билетов красного цвета? Какова вероятность, что не более двух билетов красного цвета? $363$ $232$ $12$

Точная формула может быть получена, но нам не нужно делать столько теоретической работы. Вместо этого мы просто отслеживаем шансы, когда билеты достают из банки. На время из них был снят, пусть вероятность того, что именно красные билеты были замечены быть написан . Для начала обратите внимание, что если (у вас не может быть красных билетов до начала работы) и (наверняка у вас нет красных билетов с самого начала). Теперь на последнем розыгрыше либо билет был красным, либо его нет. В первом случае у нас ранее был шанс увидеть точно $m$ $i$ $p(i,m)$ $p(i,0)=0$ $i\gt 0$ $p(0,0)=1$ $p(i-1,m-1)$ $i-1$ красные билеты. Затем произошло то , чтобы вытащить красную один из оставшихся билетов, что делает его именно красные билеты до сих пор. Поскольку мы предполагаем, что все билеты имеют одинаковые шансы на каждом этапе, наш шанс нарисовать красный таким образом был . В другом случае у нас был шанс получить ровно красных билетов в предыдущих тиражах , и шанс не добавить еще один красный билет в образец на следующем тираже был $363 - m + 1$ $i$ $(12-i+1) / (363 - m + 1)$ $p(i,m-1)$ $i$ $m-1$ $(363 - m + 1 - 12 + i) / (363 - m + 1)$ , Откуда, используя основные аксиомы вероятности (то есть, шансы двух взаимоисключающих случаев добавляют и условные шансы умножаются),

p (i, m) = \frac{p (i - 1, m - 1) (12 - i + 1) + p (i, m - 1) (363 - m + 1 - 12 + i)}{363 - m + 1} .

$p(i,m) = \frac{p(i-1,m-1) (12-i+1) + p(i,m-1) (363 - m + 1 - 12 + i)}{363 - m + 1}.$

Мы повторяем это вычисление рекурсивно, выкладывая треугольный массив значений для и . После небольшого подсчета мы получаем и , отвечая на обе версии вопроса. Это небольшие цифры: как ни крути, это довольно редкие события (реже, чем один на тысячу). $p(i,m)$ $0\le i\le 12$ $0 \le m \le 232$ $p(2,232) \approx 0.000849884$ $p(0,232)+p(1,232)+p(2,232)\approx 0.000934314$

В качестве двойной проверки я выполнил это упражнение на компьютере 1 000 000 раз. В 932 = 0,000932 из этих экспериментов наблюдалось 2 или меньше красных билетов. Это очень близко к расчетному результату, потому что колебание выборки в ожидаемом значении 934,3 составляет около 30 (вверх или вниз). Вот как симуляция выполняется в R:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

На этот раз, поскольку эксперименты являются случайными, результаты немного изменились: два или меньше красных билетов были обнаружены в 948 из миллиона испытаний. Это все еще согласуется с теоретическим результатом.)

Вывод: маловероятно, что два или меньше из 232 билетов будут красного цвета. Если у вас действительно есть выборка из 232 из 363 человек, этот результат является убедительным свидетельством того, что модель билетов в банке не является правильным описанием того, как была получена выборка. Альтернативные объяснения включают в себя (а) красные билеты было труднее извлечь из банки («предвзятость» против них), а также (б) билеты были окрашены после того, как образец наблюдался ( post-hoc отслеживание данных, что делает не указывать какой-либо предвзятости).

Примером объяснения (b) в действии мог бы быть состав жюри для печально известного судебного разбирательства по делу об убийстве. Предположим, это включало 363 человека. Из этого пула суд опросил 232 из них. Амбициозный газетный репортер тщательно проверяет биографию всех в бассейне и замечает, что 12 из 363 были любителями золотых рыбок, но только два из них были опрошены. Пристрастен ли суд к любителям золотых рыбок? Возможно нет.

— Whuber
источник

NB. При моделировании не имеет значения, что отмечены первые 12 «билетов», потому что вся выборка выполняется случайным образом без замены (через sample). Фактически, на каждой итерации sampleтщательно перемешивает билеты при каждом вызове, прежде чем отозвать 232 из них.

— whuber

2

Боже мой, это не тот результат, которого я ожидал. Спасибо за вашу тщательную работу и хорошее объяснение. (Любопытно, что на самом деле я занимался статистикой в университете Окленда, где впервые был разработан R)

— Sarge

10

@whuber дал исчерпывающее объяснение, я просто хочу отметить, что существует стандартное статистическое распределение, соответствующее этому сценарию: гипергеометрическое распределение. Таким образом, вы можете получить любые такие вероятности непосредственно, скажем, в R:

Вероятность точно 2 из 12 выбранных:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

Вероятность 2 или менее из 12 выбранных:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

— Анико
источник

+1 Спасибо. Я должен был упомянуть эту связь. Гипергеометрическое распределение классически появляется в экспериментах по выборке и повторной выборке. 12 конкретных людей (мои «красные билеты») похожи на рыбу, которую поймали, пометили и бросили обратно в бассейн; образец 232 подобен множеству рыб, которые впоследствии вылавливаются. Гипергеометрическое распределение описывает частоты выловленных рыб.

— whuber

0

Шансы намного выше, чем рассчитано при простом гипергеометрическом распределении, так как группа выбрана не случайно ( «12 рыб окрашены в красный цвет перед розыгрышем» ).

Из описания вопроса, мы проверяем на мошенничество в розыгрыше. Конкретная группа из 12 человек жаловалась, что были отобраны только 2 из них, тогда как ожидаемое число составило 232/363 ~ 2/3 = 8.

Что нам действительно нужно рассчитать, так это шансы, что « Ни в одной группе размера 12 не будет выбрано только 2 члена». Вероятность того, что по крайней мере одна группа будет иметь 2 или меньше (следовательно, будет жаловаться на справедливость розыгрыша), намного выше.

Когда я запускаю эту симуляцию и проверяю, сколько из испытаний ни у одной из 30 (= 360/12) групп не было 2 или менее выборов, я получаю примерно 2,3% случаев. 1:42 низко, но не невозможно.

Вы все равно должны проверить процедуру розыгрыша, так как он может быть предвзятым в отношении определенной группы людей. Они могли бы собраться вместе и получить диапазон розыгрыша с меньшей вероятностью (например, первое или последнее число) или любую зависимую переменную от процедуры розыгрыша. Но если вы не обнаружите недостатков в процедуре, вы можете вернуться к коэффициенту 1:42, что это просто неудача для группы.

— парень
источник

Хороший момент, НО (а), конечно, не каждая возможная группа из 12 имеет достаточно сходства с материей, и (б) не все группы, которые имеют достаточно сходства, чтобы иметь материю, имеют ровно 12 членов.

— zbicyclist

@zbicyclist, я не утверждаю, что расчет точен. Я хотел дать разумное сомнение (поскольку мы находимся в сфере действия закона с выявлением мошенничества), что ничья не является виновной.

— Парень