Как glmnet справляется с избыточной дисперсией?

У меня есть вопрос о том, как смоделировать текст поверх данных подсчета, в частности, как я могу использовать эту lassoтехнику для сокращения возможностей.

Скажем, у меня есть N онлайн статей и количество просмотров страниц для каждой статьи. Я извлек 1-грамм и 2-грамм для каждой статьи, и я хотел провести регрессию по 1,2-граммам. Поскольку характеристики (1,2 грамма) намного больше, чем количество наблюдений, лассо было бы хорошим способом уменьшить количество функций. Кроме того, я обнаружил, glmnetчто очень удобно проводить анализ лассо.

Тем не менее, количество количество просмотров страниц являются overdispersed (дисперсия> средняя), но glmnetне предлагает quasipoisson(явно) или , negative binomialно poissonдля данных подсчета. Решение, о котором я подумал, состоит в log transformтом, чтобы подсчитать данные (часто используемый среди социологов метод) и сделать переменную отклика примерно такой же, как в нормальном распределении. Таким образом, я мог бы смоделировать данные с использованием семейства гауссов glmnet.

Поэтому мой вопрос: уместно ли это делать? Или я должен просто использовать пуассоновский glmnetв случае glmnetручках quasipoisson? Или есть другие пакеты R справиться с этой ситуацией?

Большое спасибо!

— Соня С.
источник

Короткий ответ

Чрезмерная дисперсия не имеет значения при оценке вектора коэффициентов регрессии для условного среднего в квази / пуассоновской модели! Вам будет хорошо, если вы забудете о чрезмерной дисперсии здесь, используйте glmnet с семейством Пуассона и просто сосредоточитесь на том, является ли ваша ошибка кросс-проверенного прогноза низкой.

Квалификация следует ниже.

Пуассон, Квази-Пуассон и оценочные функции:

Я говорю выше, потому что избыточная дисперсия (OD) в пуассоновской или квазипуассоновской модели влияет на все, что связано с дисперсией (или на дисперсию, или на масштаб, или на неоднородность, или на разброс, или как вы хотите это называть) и, как таковая, влияет на стандарт ошибки и доверительные интервалы, но оставляют оценки для условного среднего значения (называемого ) нетронутыми. Это особенно относится к линейным разложениям среднего значения, таким как $y$ $\mu$ $x^\top\beta$ .

Это связано с тем, что оценочные уравнения для коэффициентов условного среднего практически одинаковы как для моделей Пуассона, так и для квазипуассона. Квази-Пуассон определяет функцию дисперсии в терминах среднего значения и дополнительного параметра (скажем, ) как (с для Пуассона = 1), но не оказывается быть актуальным при оптимизации оценочного уравнения. Таким образом, играет никакой роли в оценке когда условное среднее и дисперсия пропорциональны. Поэтому точечные оценки одинаковы для квази- и пуассоновых моделей! $\theta$ $Var(y)=\theta\mu$ $\theta$ $\theta$ $\theta$ $\beta$ $\hat{\beta}$

Позвольте мне проиллюстрировать это на примере (обратите внимание, что нужно прокрутить, чтобы увидеть весь код и вывод):

> library(MASS)
> data(quine) 
> modp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="poisson")
> modqp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="quasipoisson")
> summary(modp)

Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "poisson", 
    data = quine)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-6.808  -3.065  -1.119   1.819   9.909  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.71538    0.06468  41.980  < 2e-16 ***
AgeF1       -0.33390    0.07009  -4.764 1.90e-06 ***
AgeF2        0.25783    0.06242   4.131 3.62e-05 ***
AgeF3        0.42769    0.06769   6.319 2.64e-10 ***
SexM         0.16160    0.04253   3.799 0.000145 ***
EthN        -0.53360    0.04188 -12.740  < 2e-16 ***
LrnSL        0.34894    0.05204   6.705 2.02e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 2073.5  on 145  degrees of freedom
Residual deviance: 1696.7  on 139  degrees of freedom
AIC: 2299.2

Number of Fisher Scoring iterations: 5

> summary(modqp)

Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "quasipoisson", 
    data = quine)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-6.808  -3.065  -1.119   1.819   9.909  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.7154     0.2347  11.569  < 2e-16 ***
AgeF1        -0.3339     0.2543  -1.313 0.191413    
AgeF2         0.2578     0.2265   1.138 0.256938    
AgeF3         0.4277     0.2456   1.741 0.083831 .  
SexM          0.1616     0.1543   1.047 0.296914    
EthN         -0.5336     0.1520  -3.511 0.000602 ***
LrnSL         0.3489     0.1888   1.848 0.066760 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasipoisson family taken to be 13.16691)

    Null deviance: 2073.5  on 145  degrees of freedom
Residual deviance: 1696.7  on 139  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5

Как вы можете видеть, даже несмотря на то, что у нас есть сильная избыточная дисперсия 12,21 в этом наборе данных (по deviance(modp)/modp$df.residual), коэффициенты регрессии (точечные оценки) не меняются вообще. Но обратите внимание, как меняются стандартные ошибки.

Вопрос о влиянии чрезмерной дисперсии в штрафных пуассоновских моделях

Штрафные модели в основном используются для прогнозирования и выбора переменных, а не (пока) для вывода. Таким образом, люди, которые используют эти модели, заинтересованы в параметрах регрессии для условного среднего, просто сузившихся до нуля. Если штрафование такое же, то уравнения для оценки условных средних, выведенные из штрафного (квази) правдоподобия, также не зависят от и, следовательно, избыточная дисперсия не имеет значения для оценок в модели типа: $\theta$ $\beta$

$g(\mu)=x^\top\beta + f(\beta)$

Поскольку оценивается одинаково для любой дисперсионной функции вида , то же самое относится ко всем моделям, в которых условное среднее и дисперсия пропорциональны. $\beta$ $\theta \mu$ Это так же, как в моделях непенализованных Пуассона / Квазипуассона.

Если вы не хотите принимать это за чистую монету и избегать математики, вы можете найти эмпирическую поддержку в том факте, что glmnet, если вы установите параметр регуляризации в 0 (и, следовательно, ), вы получите в значительной степени там, где приземляются модели Пуассона и Квазипуассона (см. последний столбец ниже, где лямбда равна 0,005). $f(\beta)=0$

> library(glmnet)
> y <- quine[,5]
> x <- model.matrix(~Age+Sex+Eth+Lrn,quine)
> modl <- glmnet(y=y,x=x, lambda=c(0.05,0.02,0.01,0.005), family="poisson")
> coefficients(modl)
8 x 4 sparse Matrix of class "dgCMatrix"
                    s0         s1         s2         s3
(Intercept)  2.7320435  2.7221245  2.7188884  2.7172098
(Intercept)  .          .          .          .        
AgeF1       -0.3325689 -0.3335226 -0.3339580 -0.3340520
AgeF2        0.2496120  0.2544253  0.2559408  0.2567880
AgeF3        0.4079635  0.4197509  0.4236024  0.4255759
SexM         0.1530040  0.1581563  0.1598595  0.1607162
EthN        -0.5275619 -0.5311830 -0.5323936 -0.5329969
LrnSL        0.3336885  0.3428815  0.3459650  0.3474745

Так что же OD делает с оштрафованными регрессионными моделями? Как вы, возможно, знаете, по-прежнему ведутся дискуссии о правильном способе вычисления стандартных ошибок для штрафных моделей (см., Например, здесь ), и glmnetон не выводит данные в любом случае, возможно, по этой причине. Вполне может быть, что OD будет влиять на выводную часть модели, так же как и в случае без наказания, но если не будет достигнут некоторый консенсус относительно вывода в этом случае, мы не узнаем.

Кроме того, можно оставить всю эту неразбериху позади, если вы захотите принять байесовское представление, где оштрафованные модели - это просто стандартные модели с определенным априором.

— Момо
источник

@ Моно, спасибо за очень подробное объяснение! Вот мое понимание, и, пожалуйста, поправьте меня, если я ошибаюсь: poissonи quasipoissonрегрессии оценивают коэффициенты одинаково, и они отличаются тем, как они оценивают стандартные ошибки и, следовательно, значимость. Однако для метода Лассо способ вычисления стандартных ошибок еще не достигнут консенсуса, и, следовательно, его текущее использование в основном заключается в выборе переменных, а не в умозаключениях. Таким образом, не имеет значения, используем ли мы glmnetс пуассоном или квазипуассоном, но то, что делает эту перекрестную проверку, должно быть минимизировано.

— Соня С.

@Mono, еще одна заметка, я побежал summary(modqp)сам и увидел, что он имеет точно такие же оценки коэффициентов. Я полагаю, что ваш ответ принесет пользу большему количеству людей по этому вопросу, потому что я не нашел ни одного, поэтому я предлагаю вам добавить вывод сводки (modqp) для еще лучшего иллюстрированного примера. Еще раз большое спасибо!

— Соня С.

@ Соня Твое хорошее резюме. Ключевым моментом является то, что при оценке параметров для условного среднего функции оценки (скажем, функция оценки) для пуассона и квазипуассона одинаковы! Поэтому для этих параметров не имеет значения, существует ли наказание или нет, если это такое же наказание. Я делаю это более ясно выше. Спасибо также за указатель на сводку (modq), но он уже есть, он просто «упакован» на обычном экране, поэтому нужно прокрутить вниз.

— Момо

Я все еще задаюсь вопросом, возможно ли, чтобы в пуассоновской переменной уменьшалось меньше переменных, чем если бы существовала квази-пуассоновская спецификация, которая является более правильной и, вероятно, приведет к лучшей точности прогнозирования, чем модель Пуассона, поскольку ее модель выборки является более правильной.

— Brash Equilibrium

В связи с этим может также оказаться, что в пуассоновской области сжимается больше переменных, чем должно уменьшаться в случае дисперсии UNDER (например, когда вы используете надежную пуассоновскую модель для оценки относительных коэффициентов риска для данных 0/1).

— Дерзкое Равновесие