Почему квазипуассон в GLM не рассматривается как частный случай отрицательного бинома?


21

Я пытаюсь приспособить обобщенные линейные модели к некоторым наборам данных подсчета, которые могут быть или не быть перераспределены. Здесь применимы два канонических распределения: Пуассон и Отрицательный бином (Негбин) с EV и дисперсией.μ

Вaрпзнак равноμ

ВaрNВзнак равноμ+μ2θ

которые могут быть установлены в R с использованием glm(..,family=poisson)и glm.nb(...), соответственно. Существует также quasipoissonсемья, которая в моем понимании является настроенным Пуассоном с тем же EV и дисперсией

ВaрQпзнак равноφμ ,

то есть попадание где-то между Пуассоном и Негбиным. Основная проблема с семейством квазипуассонов состоит в том, что для него нет соответствующей вероятности, и поэтому многие чрезвычайно полезные статистические тесты и критерии соответствия (AIC, LR и так далее) недоступны.

Если вы сравните дисперсии QP и Negbin, вы можете заметить, что вы можете приравнять их, поставив . Продолжая эту логику, вы можете попытаться выразить квазипуассонное распределение как частный случай Негбина:φзнак равно1+μθ

Qп(μ,φ)знак равноNВ(μ,θзнак равноμφ-1) ,

то есть негин с линейно зависимым от . Я попытался проверить эту идею, сгенерировав случайную последовательность чисел в соответствии с приведенной выше формулой и подгоняя ее к :μθμglm

#fix parameters

phi = 3
a = 1/50
b = 3
x = 1:100

#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison

mu = exp(a*x+b) 
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator

#fit a generalized linear model y = f(x)  
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial

> glmQP

Call:  glm(formula = y ~ x, family = quasipoisson)

Coefficients:
(Intercept)            x  
    3.11257      0.01854  
(Dispersion parameter for quasipoisson family taken to be 3.613573)

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      2097 
Residual Deviance: 356.8    AIC: NA

> glmNB

Call:  glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)

Coefficients:
(Intercept)            x  
    3.10182      0.01873  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      578.1 
Residual Deviance: 107.8    AIC: 824.7

Оба соответствия воспроизводят параметры, и квазипуассон дает «разумную» оценку для . Теперь мы можем также определить значение AIC для квазипуассона:φ

df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values 

#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329

(Мне пришлось вручную скопировать подходящее значение , поскольку я не смог найти его в объекте)φsummary(glmQP)glmQP

Поскольку , это указывает на то, что квазипуассон, что неудивительно, лучше подходит; поэтому, по крайней мере, делает то, что должен, и, следовательно, это может быть разумным определением для AIC (и, соответственно, вероятности) квазипуассона. Большие вопросы, которые у меня остались A I C Q PAяСQп<AяСNВAяСQп

  1. Эта идея имеет смысл? Моя проверка основана на циклическом рассуждении?
  2. Главный вопрос для любого, кто «изобретает» что-то, что, по-видимому, отсутствует в устоявшейся теме: если эта идея имеет смысл, почему она уже не реализована glm?

Редактировать: фигура добавлена

GLM подходит и + -1 сигма группы


1
(+1) Добро пожаловать в Cross Validated! И спасибо за отличный вопрос (хотя несколько комментариев в коде могут быть полезны для людей, которые не используют R). Я думаю, что вы, возможно, заново изобрели модель NB1 (хотя я еще не следил за ней подробно). Также обратите внимание, что не существует квазипуассоновского распределения - вот почему нет вероятности или AIC - оно просто относится к способу подбора средних и дисперсий.
Scortchi - Восстановить Монику

2
Благодарность! Тем временем я добавил несколько комментариев, надеюсь, это прояснит ситуацию. Я понимаю, что квазипуассоновское распределение не существует само по себе - я действительно пытался выяснить, почему QP вообще вещь, с учетом того, что распределение NB1 существует и не имеет каких-либо квази-проблем QP (см. ответ Ахима для очевидного решения).
user28400

1
Икс~Pois(λ)Yзнак равноКИксYμзнак равноКλКμК10,К,2К,,,,

1
@Glen_b: Люди действительно называют это квази-Пуассоном? В любом случае это хорошая иллюстрация - когда вы используете модель «квази-Пуассона», вы на самом деле не предполагаете, что это распределение, или NB1, или любое другое, просто взаимосвязь между средним и дисперсией, которая делает ваши оценки коэффициентов и их стандартных ошибок лучше, поскольку образец становится больше.
Scortchi - Восстановить Монику

1
@Scortchi Это единственное экспоненциальное семейное распределение, которое удовлетворяет предположениям квази-Пуассона, так что вроде - иногда я видел, как люди указывают на то, что это предположение подразумевает распределение. Конечно, когда люди используют его, они почти * никогда не предполагают, что их данные взяты из этого конкретного распределения - это всего лишь приблизительное описание того, как их среднее значение и дисперсия связаны между собой. (Это может иметь смысл при очень простых допущениях в некоторых страховых заявлениях - общая стоимость требований, где число требований составляет Пуассона, а стоимость каждого требования фактически постоянна.)
Glen_b

Ответы:


24

Квази-Пуассон - это не модель полного максимального правдоподобия (ML), а модель квази-ML. Вы просто используете функцию оценки (или функцию оценки) из модели Пуассона для оценки коэффициентов, а затем используете определенную функцию дисперсии для получения подходящих стандартных ошибок (или, скорее, полной ковариационной матрицы) для выполнения вывода. Следовательно, glm()не поставляет и / logLik()или AIC()здесь и т. Д.

sizeθяμя

Если нет регрессоров (только перехват), то параметризация NB1 и параметризация NB2, используемые в MASSs, glm.nb()совпадают. С регрессорами они отличаются. В статистической литературе чаще используется параметризация NB2, но некоторые программные пакеты также предлагают версию NB1. Например, в R вы можете использовать gamlssпакет, чтобы сделать gamlss(y ~ x, family = NBII). Обратите внимание, что несколько сбивает с толку gamlssиспользование NBIдля параметризации NB2 и NBIIдля NB1. (Но жаргон и терминология не едины для всех сообществ.)

Тогда вы могли бы спросить, конечно, зачем использовать квази-Пуассона, если есть доступный NB1? Есть еще небольшая разница: первый использует квази-ML и получает оценку из дисперсии от квадратов отклонений (или Пирсона). Последний использует полный ML. На практике разница часто невелика, но мотивы использования любой модели немного отличаются.


1
Благодарность! Очень полезный ответ, сейчас я экспериментирую, gamlssи, похоже, это именно то, что мне нужно. Не могли бы вы рассказать о мотивах использования квази-правдоподобия по сравнению с полным ОД?
user28400

2
Вы предполагаете меньше: вы просто предполагаете (1) логарифмическую связь между ожиданием и регрессорами (2) линейную связь между дисперсией и ожиданием. Остальная вероятность остается совершенно не уточненной. В качестве альтернативы (2), практикующие врачи иногда используют так называемые «робастные» стандартные ошибки сэндвича, которые допускают более общие паттерны гетероскедастичности. Конечно, можно также использовать NB1 со стандартными ошибками сэндвича ... Еще несколько комментариев в нашем vignette("countreg", package = "pscl").
Ахим Цейлейс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.