Вместо того, чтобы вычислять вероятность, почему бы не предсказать, сколько продуктов может потерпеть неудачу?
Моделирование наблюдений
В этой области продуктов, а еще . Предположим, что их неудачи независимы и постоянны с вероятностью .м = 10000 рn=100000m=10000p
Мы можем смоделировать эту ситуацию с помощью биномиального эксперимента: из коробки билетов с неизвестной пропорцией билетов «сбой» и билетов «успех», возьмите билетов (с заменой, чтобы вероятность неудачи остается прежней). Количество неудач среди первых билетов - пусть это будет -й количество неудач среди оставшихся билетов, призывающий , что .1 - p m + n = 110000 n X m Yp1−pm+n=110000nXmY
Обрамление вопроса
В принципе, и могут быть чем угодно. То , что мы заинтересованы в том, есть шанс , что учитывая , что (с любое число в ). Поскольку сбои могут возникать где угодно среди всех билетов, причем каждая возможная конфигурация имеет одинаковую вероятность, это определяется путем деления числа -подмножеств вещей на количество -подмножеств всех вещей:0 ≤ Y ≤ m Y = u X + Y = u u { 0 , 1 , … , m } n + m u m u n + m0≤X≤n0≤Y≤mY=u X+Y=uu{0,1,…,m}n+mumun+m
p(u;n,m)=Pr(Y=u|X+Y=u)=(mu)(n+mu)=m(m−1)⋯(m−u+1)(n+m)(n+m−1)⋯(n+m−u+1).
Для расчета можно использовать сопоставимые формулы, когдаX=1,2,….
Верхняя предел предсказания1−α (УПЛ) для числа неудач в этих последних билетов, , задается наименьшим ( в зависимости от ) , для которых . t α (X;n,m)uXp(u;n,m)≤αmtα(X;n,m)uXp(u;n,m)≤α
интерпретация
UPL следует интерпретировать с точки зрения риска использования , который оценивается до того, как наблюдается или Другими словами, предположим, что это был год назад, и вас просят порекомендовать процедуру для прогнозирования количества сбоев в следующих продуктах после появления первых . Ваш клиент спрашиваетX Y m ntαXYmn
Какова вероятность того, что ваша процедура будет недооценивать ? Я не имею в виду в будущем, когда у вас будет больше данных; Я имею в виду прямо сейчас, потому что я должен принимать решения прямо сейчас, и единственные шансы, которые у меня будут в наличии, - это те, которые можно вычислить в данный момент ».Y
Ваш ответ может быть,
В настоящее время вероятность не больше, чем , но если вы планируете использовать меньший прогноз, вероятность превысит .ααα
Результаты
Для , и мы можем вычислить, что м = 10 4 X = 0n=105m=104X=0
p(0,n,m)=1; p(1,n,m)=111≈0.091; p(2,n,m)=909109999≈0.0083;…
Таким образом, наблюдаяX=0 ,
Для достоверности до (т. При ), прогнозируйте, что в следующих продуктах будет не более сбой .1−α=90.9%9.1%≤αtα(0;n,m)=110,000
Для достоверности до (то есть, когда ), предскажите, что в следующих продуктах будет не более сбоев .0,8 % & le ; & alpha ; < 9,1 % т & alpha ; ( 0 ; п , т ) = 2 10 , 00099.2%0.8%≤α<9.1%tα(0;n,m)=210,000
И т.п.
Комментарии
Когда и почему этот подход будет применяться? Предположим, ваша компания производит много разных продуктов. Наблюдая за показателями каждого в поле, ему нравится предоставлять гарантии, такие как «полная бесплатная замена любого отказа в течение одного года». Имея пределы прогнозирования количества сбоев, вы можете контролировать общие затраты на обеспечение этих гарантий. Поскольку вы производите много продуктов и ожидаете, что сбои произойдут из-за случайных обстоятельств, не зависящих от вас, опыт работы с каждым продуктом будет независимым. Имеет смысл контролировать свой риск в долгосрочной перспективеα αn, Время от времени вам, возможно, придется платить больше требований, чем ожидалось, но в большинстве случаев вы будете платить меньше. Если платить больше, чем было объявлено, может оказаться губительным, вы установите на крайне малый размер (и, скорее всего, вы бы также использовали более сложную модель отказов!). В противном случае, если затраты незначительны, вы можете жить с низким уровнем доверия (высокий ). Эти расчеты показывают, как сбалансировать доверие и риски.αα
Обратите внимание, что нам не нужно вычислять полную процедуру . Мы ждем, пока не появится а затем просто выполним вычисления для этого конкретного (здесь ), как показано выше. В принципе, тем не менее, мы могли бы провести вычисления для всех возможных значений в самом начале.X X X = 0 XtXXX=0X
Байесовский подход (описанный в других ответах) привлекателен и будет хорошо работать, если результаты не сильно зависят от предыдущих. К сожалению, когда частота отказов настолько низка, что наблюдается очень мало (или не отказов), результаты чувствительны к выбору предшествующего.