Что такое квазибиномиальное распределение (в контексте GLM)?


30

Я надеюсь, что кто-то может дать интуитивный обзор того, что такое квазибиномиальное распределение и что оно делает. Меня особенно интересуют эти моменты:

  1. Чем квазибиномиал отличается от биномиального распределения.

  2. Когда переменная отклика представляет собой пропорцию (примерные значения включают 0,23, 0,11, 0,78, 0,98), квазибиномиальная модель будет работать в R, а биномиальная модель - нет.

  3. Почему следует использовать квазибиномиальные модели, когда переменная ответа ИСТИНА / ЛОЖЬ перераспределена.

Ответы:


20
  1. Различие между биномиальным распределением и квазибиномом можно увидеть в их функциях плотности вероятности (pdf), которые характеризуют эти распределения.

    Биноминальный pdf:

    P(X=k)=(nk)pk(1p)nk

    Квазибиномом pdf:

    п(Иксзнак равноК)знак равно(NК)п(п+Кφ)К-1(1-п-Кφ)N-К

    Квазибиномиальное распределение, хотя и аналогично биномиальному распределению, имеет дополнительный параметр φ (ограниченный |φ|мин{п/N,(1-п)/N} ), который пытается описать дополнительная разница в данных, которая не может быть объяснена только биномиальным распределением.

    (Обратите внимание, что среднее значение квазибиномиального распределения равно А не самому ).пΣязнак равно0NN!φя(N-К)!п

  2. Я не уверен в этом, возможно, функция glm в R добавляет веса в квазибиномиальном режиме, чтобы объяснить это?

  3. Цель дополнительного параметра - оценить дополнительную дисперсию в данных. Каждая обобщенная линейная модель (GLM) делает предположение о распределении для результата / ответа и максимизирует вероятность данных, основанных на этом распределении. Это выбор, который делает аналитик, и если вы чувствуете, что вам необходимо учитывать больше различий в ваших данных, то вы можете выбрать квазибиномиальное распределение, чтобы смоделировать ответ для вашего glm. Отличный способ проверить, нужно ли нам подбирать квазибиномиальную модель вместо биномиальной, - это подобрать квазибиномиальную модель и проверить, равен ли параметр 0.φφ


2
Отлично, Алехандро, теперь, как я могу проверить, если параметр ϕ равен 0?
Juanchi

2
Обратите внимание , что в Rс glm.fit, binomialи quasibinomialточно так же, за исключением того, что quasibinomial(1) удаляет чек целого числа, и (2) возвращает АПК NA. Смотрите этот ответ для более подробной информации.
Мигельморин

-1 Этот вид «квазибиномиального» распределения, кажется, совершенно не связан с квазибиномиальными вероятностями в контексте glms, поэтому трудно понять, почему он получил так много голосов.
Ярле Туфто

14

Квазибиномом не обязательно является конкретное распределение; она описывает модель отношения между дисперсией и средним значением в обобщенных линейных моделях, которая в раз больше дисперсии для бинома в терминах среднего значения для бинома.φ

Существует распределение, которое соответствует такой спецификации (очевидный - масштабированный бином), но это не обязательно цель, когда квазибиномиальная модель подходит; если вы подходите к данным, которые по-прежнему 0-1, они не могут быть масштабированы бином.

Таким образом, модель квазибиномиальной дисперсии с помощью параметра может лучше обрабатывать данные, для которых дисперсия больше (или, возможно, меньше), чем вы получаете с биномиальными данными, хотя вовсе не обязательно является фактическим распределением ,φ

Когда переменная отклика является пропорцией (примерные значения включают 0,23, 0,11, 078, 0,98), квазибиномиальная модель будет работать в R, а биномиальная модель не будет

Насколько я помню, биномиальную модель можно запустить в R с пропорциями *, но вы должны правильно ее настроить.

* Есть три отдельных способа передачи биномиальных данных в R, о которых я знаю. Я уверен, что это один.


Как это связано с оценкой квази-вероятности?
Tim.farkas

2
+1 (но я бы хотел увидеть более полный ответ!). Вероятно, существует три способа настройки биномиального GLM с пропорциями: stats.stackexchange.com/a/26779/28666 ? Ссылка может быть полезной. Кроме того, как то, что вы сказали о "квазибиноме", который на самом деле не является распределением, относится ко второму ответу в этой теме?
говорит амеба, восстанови Монику

1
@amoeba, вы можете написать распределение для него, как было указано в моем ответе (масштабированный бином), но это не может быть распределением для данных подсчета (квазибином является не для всех целых чисел, если параметр дисперсии не равен 1), ни для непрерывных данных ( это дискретно!). Люди обычно используют его для подсчета данных из-за его дисперсионной структуры (но в этом случае в экспоненциальном семействе такого распределения нет)
Glen_b -Reinstate Monica
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.