Переключиться с моделирования процесса с использованием распределения Пуассона, чтобы использовать отрицательное биномиальное распределение?


24

Мы имеем случайный процесс , который может или может-не-происходить несколько раз в течение заданного периода времени T . У нас есть поток данных из уже существующей модели этого процесса, который обеспечивает вероятность ряда событий, происходящих в период 0t<T . Эта существующая модель устарела, и нам нужно выполнить живые проверки данных фида для ошибок оценки. Старая модель, производящая поток данных (который обеспечивает вероятность n событий, происходящих за оставшееся время t ), приблизительно распределена по Пуассону.

Таким образом, чтобы проверить наличие аномалий / ошибок, мы допустим, чтобы t было оставшимся временем, а Xt - общим числом событий, произошедших за оставшееся время t . Старая модель подразумевает оценки P(Xtc) . Таким образом, по нашему предположению XtPoisson(λt) имеем:

P(Xtc)=eλk=0cλtkk!.
Чтобы вывести нашу частоту событий λt из выходных данных старой модели (наблюдения yt ), мы используем подход пространства состояний и моделируем отношение состояний следующим образом:
yt=λt+εt(εtN(0,Ht)).
Мы фильтруем наблюдения из старой модели, используя модель пространства состояний [затухание с постоянной скоростью] для эволюции λt чтобы получить отфильтрованное состояние E(λt|Yt) и пометить аномалию / ошибку в расчетной частоте события из данные канала, если E(λt|Yt)<yt .

Этот подход прекрасно работает при обнаружении ошибок в подсчитанных событиях за полный период времени T , но не так хорошо, если мы хотим сделать то же самое для другого периода 0t<σ где σ<23T . Чтобы обойти это, мы решили, что теперь хотим переключиться на использование отрицательного биномиального распределения, так что теперь мы предполагаем XtNB(r,p) и имеем:

P(Xtc)=prk=0c(1p)k(k+r1r1),
где параметр λ теперь заменен на r и p, Это должно быть легко реализовать, но у меня возникли некоторые трудности с интерпретацией, и поэтому у меня есть несколько вопросов, с которыми я бы хотел вам помочь:

1. Можем ли мы просто установить p=λ в отрицательном биномиальном распределении? Если нет, то почему?

2. Предполагая, что мы можем установить p=f(λ) где f - некоторая функция, как мы можем правильно установить r (нужно ли нам соответствовать r используя прошлые наборы данных)?

3. Зависит ли r от числа событий, которые мы ожидаем произойти во время данного процесса?


Дополнение к извлечению оценок для rp ):

Мне известно, что если бы у нас на самом деле была эта проблема, и у нас было число событий для каждого процесса, мы могли бы принять оценку максимального правдоподобия для и . Конечно, максимальная оценка правдоподобия существует только для выборок, для которых выборочная дисперсия больше среднего значения выборки, но если бы это было так, мы могли бы установить функцию вероятности для независимых идентично распределенных наблюдений as: из которого мы можем записать логарифмическую функцию правдоподобия как: р Н к 1 , к 2 , ... , K N L ( г , р ) = N П я = 1 P ( K я ; г , р ) , л ( г , р ) = Н Е я = 1 LN ( Г ( k i + r ) ) - N irpNk1,k2,,kN

L(r,p)=i=1NP(ki;r,p),
rpr l ( r , p )
l(r,p)=i=1Nln(Γ(ki+r))i=1Nln(ki!)Nln(Γ(r))+i=1Nkiln(p)+Nrln(1p).
Чтобы найти максимум, мы берем частные производные по и и устанавливаем их равными нулю: Установка и настройка находим: rpгл(г,р)=рл(г,р)=0р= N Σ я = 1 K I
rl(r,p)=i=1Nψ(ki+r)Nψ(r)+Nln(1p),pl(r,p)=i=1Nki1pNr11p.
rl(r,p)=pl(r,p)=0гл(г,р)=НЕя=1ψ(KI+р)-Ni |(р)+NLN(гp=i=1Nki(Nr+i=1Nki),rp
rl(r,p)=i=1Nψ(ki+r)Nψ(r)+Nln(rr+i=1NkiN)=0.
Это уравнение не может быть решено для r в замкнутой форме с использованием Ньютона или даже EM. Однако в этой ситуации это не так. Хотя мы могли бы использовать прошлые данные для получения статических и это на самом деле бесполезно для нашего процесса, нам нужно адаптировать эти параметры во времени, как мы это делали с помощью Пуассона. rp

1
Почему бы просто не подключить ваши данные к модели регрессии Пуассона или отрицательной биномиальной модели?
StatsStudent

1
Я не чувствую , что это должно иметь , чтобы использовать. Принимая во внимание, что Пуассон является предельным случаем отрицательного бинома, должен быть какой-то способ параметризовать эту проблему аналогично тому, как я это сделал для Пуассона. Кроме того, этот процесс происходит одновременно для тысяч разностных процессов, и ни один из них не имеет одинаковую «частоту событий», что означает, что анализ регрессии для этих параметров должен проводиться при каждом новом наблюдении для всех живых процессов. Это неосуществимо. Большое спасибо, что
нашли

1
С точки зрения связывания пуассона с NB, если у вас есть со скрытой переменной дисперсии так что и . Это даст предельное распределение NB при интегрировании . Вы можете использовать это, чтобы помочь. ( g t | r t ) G a m m a ( r t , r t ) E ( g t ) = 1 v a r ( g t ) = r -(Xt|λt,rt,gt)Pois(λtgt)(gt|rt)Gamma(rt,rt)E(gt)=1 гтvar(gt)=rt1gt
вероятностная

Это отличная помощь, но можете ли вы уточнить это немного подробнее и предоставить некоторые подробности? Большое спасибо за ваше время ...
MoonKnight

1
Как насчет использования бинома, а не отрицательного бинома? Это может быть проще сделать. Анскомб FJ. Преобразование пуассоновских, биномиальных и отрицательно-биномиальных данных. Biometrika. 1948; 35: 246-54.
Карл

Ответы:


1

Отрицательное биномиальное распределение очень похоже на модель биномиальной вероятности. это применимо, когда следующие предположения (условия) остаются в силе 1) Любой эксперимент проводится при тех же условиях, пока не будет достигнуто фиксированное количество успехов, скажем, C 2) Результат каждого эксперимента можно классифицировать в одну из двух категорий , успех или неудача 3) Вероятность P успеха одинакова для каждого эксперимента. Каждый эксперимент не зависит от всех остальных. Первое условие является единственным ключевым дифференцирующим фактором между биномиальным и отрицательным биномиальным


0

Распределение Пуассона может быть разумным приближением бинома при определенных условиях, таких как 1) Вероятность успеха для каждого испытания очень мала. P -> 0 2) np = m (скажем) отлично. Правило, наиболее часто используемое статистиками, состоит в том, что пуассон является хорошим приближением бинома, когда n равно или больше 20, а p равно или меньше 5 %

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.