Оценка вероятности в процессе Бернулли путем выборки до 10 отказов: является ли она предвзятой?

15

Предположим, у нас есть процесс Бернулли с вероятностью отказа (который будет мал, скажем, ), из которого мы производим выборку, пока не встретим отказов. Таким образом , мы оцениваем вероятность отказа , как , где представляет собой число выборок. $q$ $q \leq 0.01$ $10$ $\hat{q}:=10/N$ $N$

Вопрос : Является ли смещена оценка по ? И если так, есть ли способ исправить это? $\hat{q}$ $q$

Я обеспокоен тем, что настаивание на последнем примере является ошибочным смещением оценки.

estimation bernoulli-distribution

— Бекки
источник

5

Текущие ответы не дают минимальной дисперсии несмещенной оценки

. См. Раздел « Выборка и оценка точек» статьи в Википедии об отрицательном биномиальном распределении .

(10 - 1) / (N - 1)

$(10-1)/(N-1)$

— А. Уэбб

10

Это правда , что является предвзятой оценкой в том смысле , что , но вы не обязательно должны позволить этому сдерживать вас. Этот точный сценарий может быть использован в качестве критики против идеи, что мы всегда должны использовать объективные оценки, потому что здесь смещение - это скорее артефакт конкретного эксперимента, который мы проводим. Данные выглядят точно так же, как если бы мы выбрали количество образцов заранее, так почему же наши выводы должны измениться? $\hat{q}$ $q$ $\text{E}(\hat{q}) \neq q$

Интересно, что если бы вы собирали данные таким образом, а затем записывали функцию правдоподобия как в биномиальной (фиксированный размер выборки), так и в отрицательной биномиальной моделях, вы обнаружили бы, что они пропорциональны друг другу. Это означает , что является лишь обычной оценкой максимального правдоподобия при отрицательной биномиальной модели, которая, конечно, вполне приемлемая оценка. $\hat{q}$

— dsaxton
источник

Большой! Похоже (для моих целей) этот уклон не проблема.

— Бекки

9

Он не настаивает на том, что последний образец является ошибкой, которая искажает оценку, он принимает обратную величину $N$

Так что в вашем примере, но $\mathbb{E}\left[\frac{N}{10}\right] =\frac{1}{q}$ . Это близко к сравнению среднего арифметического с гармоническим средним $\mathbb{E}\left[\frac{10}{N}\right] \not = q$

Плохая новость заключается в том, что смещение может увеличиваться с уменьшением , но ненамного, если уже мало. Хорошей новостью является то, что смещение уменьшается по мере увеличения необходимого количества отказов. Кажется, что если вам требуется сбоев, то смещение ограничено сверху мультипликативным множителем $q$ $q$ $f$ для малых; Вы не хотите такой подход, когда вы останавливаетесь после первого сбоя $\frac{f}{f-1}$ $q$

Остановившись после сбоев, при вы получите $10$ $q=0.01$ но $\mathbb{E}\left[\frac{N}{10}\right] = 100$ , а привы получите $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.011097$ $q=0.001$ но $\mathbb{E}\left[\frac{N}{10}\right] = 1000$ . Уклон примерно $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.001111$ мультипликативный фактор $\frac{10}{9}$

— Генри
источник

7

В качестве дополнения к ответу dsaxton, вот некоторые симуляции в R , показывающие распределение выборки при и : $\hat{q}$ $k=10$ $q_0 = 0.02$

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

Похоже , что , что является довольно небольшим уклоном по отношению к изменчивости в . $\mathbb{E}\left[ \hat{q}\right] \approx 0.022$ $\hat{q}$

— Адриан
источник

1

Это действительно полезно. На этом уровне мне не о чем беспокоиться.

— Бекки

2

Вы можете написать эту симуляцию более кратко, как10+rnbinom(10000,10,0.02)

— А. Вебб

@ A.Webb спасибо, это хороший момент. Я действительно изобретал велосипед. Мне нужно прочитать? Rnbinom и тогда я отредактирую свой пост

— Адриан

1

Это было бы 10/(10+rnbinom(10000,10,0.02)). Параметризация определяется количеством успехов / неудач, а не общим количеством испытаний, поэтому вам придется добавить k = 10 обратно. Обратите внимание, что объективная оценка будет на 9/(9+rnbinom(10000,10,0.02))один меньше в числителе и знаменателе.

— А. Уэбб