Я интерпретирую вопрос следующим образом: предположим, что отбор проб был якобы проведен так, как будто в банку было помещено листа белой бумаги, на каждом из которых было указано имя одного человека, и были выбраны случайным образом после тщательного перемешивания содержимого банки. Заранее билетов были окрашены в красный цвет. Какова вероятность того, что ровно два из выбранных билетов красного цвета? Какова вероятность, что не более двух билетов красного цвета?232 1236323212
Точная формула может быть получена, но нам не нужно делать столько теоретической работы. Вместо этого мы просто отслеживаем шансы, когда билеты достают из банки. На время из них был снят, пусть вероятность того, что именно красные билеты были замечены быть написан . Для начала обратите внимание, что если (у вас не может быть красных билетов до начала работы) и (наверняка у вас нет красных билетов с самого начала). Теперь на последнем розыгрыше либо билет был красным, либо его нет. В первом случае у нас ранее был шанс увидеть точноi p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - м + 1 )мяр ( я , м )p ( i , 0 ) = 0я > 0р ( 0 , 0 ) = 1р ( я - 1 , m - 1 )я - 1красные билеты. Затем произошло то , чтобы вытащить красную один из оставшихся билетов, что делает его именно красные билеты до сих пор. Поскольку мы предполагаем, что все билеты имеют одинаковые шансы на каждом этапе, наш шанс нарисовать красный таким образом был . В другом случае у нас был шанс получить ровно красных билетов в предыдущих тиражах , и шанс не добавить еще один красный билет в образец на следующем тираже был363 - м + 1я( 12 - i + 1 ) / ( 363 - m + 1 )p ( i , m - 1 )ям - 1( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 ), Откуда, используя основные аксиомы вероятности (то есть, шансы двух взаимоисключающих случаев добавляют и условные шансы умножаются),
p ( i , m ) = p ( i - 1 , m - 1 ) ( 12 - i + 1 ) + p ( i , m - 1 ) ( 363 - m + 1 - 12 + i )363 - м + 1,
Мы повторяем это вычисление рекурсивно, выкладывая треугольный массив значений для и . После небольшого подсчета мы получаем и , отвечая на обе версии вопроса. Это небольшие цифры: как ни крути, это довольно редкие события (реже, чем один на тысячу).0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0.000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0.000934314р ( я ,м )0 ≤ я ≤ 120 ≤ м ≤ 232p ( 2 , 232 ) ≈ 0,000849884p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0,000934314
В качестве двойной проверки я выполнил это упражнение на компьютере 1 000 000 раз. В 932 = 0,000932 из этих экспериментов наблюдалось 2 или меньше красных билетов. Это очень близко к расчетному результату, потому что колебание выборки в ожидаемом значении 934,3 составляет около 30 (вверх или вниз). Вот как симуляция выполняется в R:
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
На этот раз, поскольку эксперименты являются случайными, результаты немного изменились: два или меньше красных билетов были обнаружены в 948 из миллиона испытаний. Это все еще согласуется с теоретическим результатом.)
Вывод: маловероятно, что два или меньше из 232 билетов будут красного цвета. Если у вас действительно есть выборка из 232 из 363 человек, этот результат является убедительным свидетельством того, что модель билетов в банке не является правильным описанием того, как была получена выборка. Альтернативные объяснения включают в себя (а) красные билеты было труднее извлечь из банки («предвзятость» против них), а также (б) билеты были окрашены после того, как образец наблюдался ( post-hoc отслеживание данных, что делает не указывать какой-либо предвзятости).
Примером объяснения (b) в действии мог бы быть состав жюри для печально известного судебного разбирательства по делу об убийстве. Предположим, это включало 363 человека. Из этого пула суд опросил 232 из них. Амбициозный газетный репортер тщательно проверяет биографию всех в бассейне и замечает, что 12 из 363 были любителями золотых рыбок, но только два из них были опрошены. Пристрастен ли суд к любителям золотых рыбок? Возможно нет.