Короткий ответ
Чрезмерная дисперсия не имеет значения при оценке вектора коэффициентов регрессии для условного среднего в квази / пуассоновской модели! Вам будет хорошо, если вы забудете о чрезмерной дисперсии здесь, используйте glmnet с семейством Пуассона и просто сосредоточитесь на том, является ли ваша ошибка кросс-проверенного прогноза низкой.
Квалификация следует ниже.
Пуассон, Квази-Пуассон и оценочные функции:
Я говорю выше, потому что избыточная дисперсия (OD) в пуассоновской или квазипуассоновской модели влияет на все, что связано с дисперсией (или на дисперсию, или на масштаб, или на неоднородность, или на разброс, или как вы хотите это называть) и, как таковая, влияет на стандарт ошибки и доверительные интервалы, но оставляют оценки для условного среднего значения (называемого ) нетронутыми. Это особенно относится к линейным разложениям среднего значения, таким какμ x ⊤ βYμИкс⊤β .
Это связано с тем, что оценочные уравнения для коэффициентов условного среднего практически одинаковы как для моделей Пуассона, так и для квазипуассона. Квази-Пуассон определяет функцию дисперсии в терминах среднего значения и дополнительного параметра (скажем, ) как (с для Пуассона = 1), но не оказывается быть актуальным при оптимизации оценочного уравнения. Таким образом, играет никакой роли в оценке когда условное среднее и дисперсия пропорциональны. Поэтому точечные оценки одинаковы для квази- и пуассоновых моделей!В г ( у ) = & thetas ; ц & thetas ; & thetas ; & thetas ; & beta ; & beta ;θVar(y)=θμθθθββ^
Позвольте мне проиллюстрировать это на примере (обратите внимание, что нужно прокрутить, чтобы увидеть весь код и вывод):
> library(MASS)
> data(quine)
> modp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="poisson")
> modqp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="quasipoisson")
> summary(modp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "poisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.71538 0.06468 41.980 < 2e-16 ***
AgeF1 -0.33390 0.07009 -4.764 1.90e-06 ***
AgeF2 0.25783 0.06242 4.131 3.62e-05 ***
AgeF3 0.42769 0.06769 6.319 2.64e-10 ***
SexM 0.16160 0.04253 3.799 0.000145 ***
EthN -0.53360 0.04188 -12.740 < 2e-16 ***
LrnSL 0.34894 0.05204 6.705 2.02e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: 2299.2
Number of Fisher Scoring iterations: 5
> summary(modqp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "quasipoisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.7154 0.2347 11.569 < 2e-16 ***
AgeF1 -0.3339 0.2543 -1.313 0.191413
AgeF2 0.2578 0.2265 1.138 0.256938
AgeF3 0.4277 0.2456 1.741 0.083831 .
SexM 0.1616 0.1543 1.047 0.296914
EthN -0.5336 0.1520 -3.511 0.000602 ***
LrnSL 0.3489 0.1888 1.848 0.066760 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasipoisson family taken to be 13.16691)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 5
Как вы можете видеть, даже несмотря на то, что у нас есть сильная избыточная дисперсия 12,21 в этом наборе данных (по deviance(modp)/modp$df.residual
), коэффициенты регрессии (точечные оценки) не меняются вообще. Но обратите внимание, как меняются стандартные ошибки.
Вопрос о влиянии чрезмерной дисперсии в штрафных пуассоновских моделях
Штрафные модели в основном используются для прогнозирования и выбора переменных, а не (пока) для вывода. Таким образом, люди, которые используют эти модели, заинтересованы в параметрах регрессии для условного среднего, просто сузившихся до нуля. Если штрафование такое же, то уравнения для оценки условных средних, выведенные из штрафного (квази) правдоподобия, также не зависят от и, следовательно, избыточная дисперсия не имеет значения для оценок в модели типа:βθβ
g(μ)=x⊤β+f(β)
Поскольку оценивается одинаково для любой дисперсионной функции вида , то же самое относится ко всем моделям, в которых условное среднее и дисперсия пропорциональны. θ μβθμЭто так же, как в моделях непенализованных Пуассона / Квазипуассона.
Если вы не хотите принимать это за чистую монету и избегать математики, вы можете найти эмпирическую поддержку в том факте, что glmnet
, если вы установите параметр регуляризации в 0 (и, следовательно, ), вы получите в значительной степени там, где приземляются модели Пуассона и Квазипуассона (см. последний столбец ниже, где лямбда равна 0,005).f(β)=0
> library(glmnet)
> y <- quine[,5]
> x <- model.matrix(~Age+Sex+Eth+Lrn,quine)
> modl <- glmnet(y=y,x=x, lambda=c(0.05,0.02,0.01,0.005), family="poisson")
> coefficients(modl)
8 x 4 sparse Matrix of class "dgCMatrix"
s0 s1 s2 s3
(Intercept) 2.7320435 2.7221245 2.7188884 2.7172098
(Intercept) . . . .
AgeF1 -0.3325689 -0.3335226 -0.3339580 -0.3340520
AgeF2 0.2496120 0.2544253 0.2559408 0.2567880
AgeF3 0.4079635 0.4197509 0.4236024 0.4255759
SexM 0.1530040 0.1581563 0.1598595 0.1607162
EthN -0.5275619 -0.5311830 -0.5323936 -0.5329969
LrnSL 0.3336885 0.3428815 0.3459650 0.3474745
Так что же OD делает с оштрафованными регрессионными моделями? Как вы, возможно, знаете, по-прежнему ведутся дискуссии о правильном способе вычисления стандартных ошибок для штрафных моделей (см., Например, здесь ), и glmnet
он не выводит данные в любом случае, возможно, по этой причине. Вполне может быть, что OD будет влиять на выводную часть модели, так же как и в случае без наказания, но если не будет достигнут некоторый консенсус относительно вывода в этом случае, мы не узнаем.
Кроме того, можно оставить всю эту неразбериху позади, если вы захотите принять байесовское представление, где оштрафованные модели - это просто стандартные модели с определенным априором.
poisson
иquasipoisson
регрессии оценивают коэффициенты одинаково, и они отличаются тем, как они оценивают стандартные ошибки и, следовательно, значимость. Однако для метода Лассо способ вычисления стандартных ошибок еще не достигнут консенсуса, и, следовательно, его текущее использование в основном заключается в выборе переменных, а не в умозаключениях. Таким образом, не имеет значения, используем ли мыglmnet
с пуассоном или квазипуассоном, но то, что делает эту перекрестную проверку, должно быть минимизировано.