Вероятность пересечения из нескольких выборок одной и той же популяции


10

Вот пример случая:

  • У меня есть население 10000 предметов. Каждый элемент имеет уникальный идентификатор.
  • Я случайно выбираю 100 предметов и записываю идентификаторы
  • Я положил 100 предметов обратно в население
  • Я снова выбираю 100 предметов, записываю идентификаторы и заменяю их.
  • В общей сложности я повторяю эту случайную выборку 5 раз

Какова вероятность того, что число появится во всех 5 случайных выборках?X

Я не очень хорошо разбираюсь в статистике. Будет ли это правильно для ?X=10

  • Для каждой выборки число возможных комбинаций 100 элементов из 10 000 составляетbinom(10000,100)
  • Из всех возможных комбинаций из 100 элементов комбинации содержат 10 определенных элементовbinom(9990,90)binom(100,10)
  • Вероятность наличия 10 конкретных предметов составляет(binom(9990,90)binom(100,10))/binom(10000,100)
  • Рассчитанная вероятность до степени 5 будет представлять 5 независимых выборок.

Итак, по сути, мы просто вычисляем 5 независимых гипергеометрических вероятностей и затем умножаем их вместе? Я чувствую, что где-то пропускаю шаг.


3
Если вы повторяете что-то один раз, значит, вы делаете это дважды. Разве повторение чего-то 5 раз не означает, что вы делаете это 6 раз?
Glen_b

Ответы:


3

Вычислить шансы рекурсивно.

Пусть будет вероятностью того, что точно значений, , будут выбраны во всех независимых розыгрышах предметов (без замены) из совокупности членов , (Давайте держать и фиксированными на время анализа, чтобы их не нужно было упоминать явно.)x 0 x k s 1 k n k > 0 n kps(x)x0xks1knk>0nk

Пусть - вероятность того, что если в первом выбраны именно значения , то из них будут выбраны в последнем тираже. Тогда, поскольку есть подмножества из элементов этих элементов , и подмножества оставшихся элементов выбираются отдельно из других членов совокупности,y s - 1 x y ( yps(xy)ys1xy(yx)xy(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

Закон полной вероятности утверждает

ps(x)=y=xkps(xy)ps1(y).

Для , наверняка, : это начальное распределение.s=1x=k

Общее вычисление, необходимое для получения полного распределения через повторений, составляет . Мало того, что это достаточно быстро, алгоритм прост. Неосторожный программист ожидает одну ловушку, которая заключается в том, что эти вероятности могут стать чрезвычайно малыми и привести к потере вычислений с плавающей точкой. Следующая реализация избегает этого, вычисляя значения в столбцах массива.sO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

Ответ на вопрос получается, если и . s=5, n=10000=104k=100=102 На выходе получается массив , но большинство чисел настолько малы, что мы можем сосредоточиться на очень маленьком . Вот первые четыре строки, соответствующие :101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

Выход

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

Значения обозначают строки, а значения - столбцы. Столбец 5 показывает вероятность того, что один элемент появляется во всех пяти выборках, является крошечным (примерно один на миллион), и практически нет шансов, что два или более элемента появятся во всех пяти выборках.xs

Если вы хотите увидеть, насколько малы эти шансы, посмотрите на их логарифмы. База 10 удобна и нам не нужно много цифр:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

Выходные данные говорят нам, сколько нулей после десятичной запятой:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

Числа в верхнем ряду являются значениями . Например, вероятность того, что во всех пяти выборках будут обнаружены ровно три значения , дает и на самом деле это имеет нулей до первая значащая цифра. Как проверка, последнее значение является округленной версией . (который учитывает вероятность повторного появления первого образца в следующих четырех образцах) равенxexp(u[4])0.000000000000000000143441918967.0967.26(10000100)410967.26.


0

Я просто столкнулся с подобной проблемой и, хотя я также не знаю, является ли это правильным решением, подошел к нему так:

Вы заинтересованы в появлении предметов в 5 образцах по штук из предметов. Вы можете подумать о урне с белыми шарами и черными шарами. шаров, а - вероятность того, что в вашем наборе все белых шаров. Если вы сделаете это раз (независимо), я бы это: .X10010,000X10,000X100phX5p=ph5

Я мог бы даже подумать еще об одном шаге и обернуть его вокруг биномиального распределения: если у вас есть монета, которая приходит в голову с вероятностью (вероятность того, что у вас есть все предметы в вашем наборе) и вы подбрасываете ее раз, что такое вероятность получения голов? .ph55p=(55)ph5(1ph)55=ph5


0

Какова вероятность того, что число появится во всех 5 случайных выборках?X

Основываясь на том, что сказал Ганс, вы хотите всегда получать одинаковые идентификаторы в каждой выборке из 100 и 100- идентификаторов из оставшихся 10000- . Вероятность сделать это для данной выборки определяется гипергеометрической функцией для успехов в розыгрыше 100 из 10000 населения с возможными состояниями успеха: . Для 5 образцов вы бы взяли .XXXXXP=(XX)(10000X100X)(10000100)P5

Однако, что мы предполагаем , зная идентификаторов , которые являются общими, и есть способы выбора этих идентификаторов. Таким образом, ваш окончательный ответ будет .X(10000X)X(10000X)P5


Что такое " "? Невозможно понять этот ответ, тем более проверить его, пока вы не откроете это! x
whuber

Я не помню, как это было 3 года назад, но, вероятно, тот же X, что и в вопросе?
Хао Йе

ХОРОШО. Но что оправдывает вашу формулу? Простые проверки, такие как случай (для которого ваша формула говорит нам, что вероятность равна , тем самым полностью исключая любые другие возможности!), Указывают, что это неверно. X=01
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.