Моделирование распределения Пуассона с избыточной дисперсией

15

У меня есть набор данных, который я ожидаю, чтобы следовать распределению Пуассона, но он разбросан примерно в 3 раза. В настоящее время я моделирую эту избыточную дисперсию, используя что-то вроде следующего кода в R.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

Визуально, это, кажется, соответствует моим эмпирическим данным очень хорошо. Если я доволен подгонкой, есть ли причина, по которой я должен делать что-то более сложное, например, использовать отрицательное биномиальное распределение, как описано здесь ? (Если это так, любые указатели или ссылки на это будет высоко ценится).

О, и я знаю, что это создает слегка зазубренное распределение (из-за умножения на три), но это не должно иметь значения для моего приложения.

Обновление: для тех, кто ищет и находит этот вопрос, вот простая функция R для моделирования перерассеянного пуассона с использованием отрицательного биномиального распределения. Установите d в желаемое среднее значение / отношение дисперсии:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(через список рассылки R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

— chrisamiller
источник

11

для сверхдисперсного пуассона используйте отрицательный бином, который позволяет точно параметризовать дисперсию как функцию среднего значения. рбином () и т. д. в р.

— Сайрус С
источник

1

Почему отрицательный бином, а не смешанная модель со случайным эффектом на уровне наблюдения? Это не риторический вопрос. Это «Я не понимаю, какой из них я предпочитаю». вопрос. Кроме того, что делать, если у меня есть повторные меры ситуации? Когда мои данные непрерывны, я буду использовать обобщенную линейную смешанную модель. Гамма-распределение часто хорошо работает с непрерывными биологическими данными, а смешанная модель обрабатывает элемент повторных измерений. Но что делать, если у вас слишком много данных о повторных измерениях?

— Брайан

Одна из причин, по которой репараметризованная отрицательная биномиальная модель популярна среди данных о сверхдисперсных пуассонах, заключается в том, что она моделирует дисперсию как функцию среднего значения (такую же, как в пуассоне) с параметром избыточной дисперсии для моделирования «дополнительной» дисперсии. См. Стр. 487 здесь для быстрой формулы: worldscientific.com/doi/pdf/10.1142/9789813235533_0044 и страница в Википедии для объяснения репараметризации: en.wikipedia.org/wiki/Negative_binomial_distribution

— Самир

4

Если ваше среднее значение для Пуассона равно 1500, то вы очень близки к нормальному распределению; Вы можете попробовать использовать это как приближение, а затем моделировать среднее значение и дисперсию отдельно.

— Богатый
источник

Это всего лишь пример - медиана может быть намного меньше, порядка 200 (это зависит от того, как я разделю данные). Это исключило бы использование нормального распределения, верно?

— chrisamiller

1

Нормальное приближение к распределению Пуассона довольно устойчиво, разница между CDF ограничена чем-то вроде 0,75 / sqrt (лямбда), если я правильно помню. Я бы не стал слишком беспокоиться об использовании лямбда = 200, но если вы более склонны к риску, тогда определенно используйте отрицательный бином.

— Рич