Нулевая инфляция Пуассона

Предположим, что независимы и $\textbf{Y} = (Y_1, \dots, Y_n)'$

\begin{aligned} Y_{i} = 0 & with probability p_{i} + (1 - p_{i}) e^{- λ_{i}} \\ Y_{i} = k & with probability (1 - p_{i}) e^{- λ_{i}} λ_{i}^{k} / k! \end{aligned}

$\eqalign{ Y_i = 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ Y_i = k & \text{with probability} \ (1-p_i)e^{-\lambda_i} \lambda_{i}^{k}/k! }$

Также предположим, что параметры и удовлетворяют $\mathbf{\lambda} = (\lambda_1, \dots, \lambda_n)'$ $\textbf{p} = (p_1, \dots, p_n)$

\begin{aligned} \log (λ) & = B β \\ logit (p) & = \log (p / (1 - p)) = G λ . \end{aligned}

$\eqalign{ \log(\mathbf{\lambda}) &= \textbf{B} \beta \\ \text{logit}(\textbf{p}) &= \log(\textbf{p}/(1-\textbf{p})) = \textbf{G} \mathbf{\lambda}. }$

Если те же самые ковариаты влияют на и так что , то почему для регрессии Пуассона с нулевым раздувом требуется вдвое больше параметров, чем для регрессии Пуассона? $\mathbf{\lambda}$ $\textbf{p}$ $\textbf{B} = \textbf{G}$

poisson-regression zero-inflation

— Damien
источник

Вы все еще должны оценить

являются проектными матрицами (данными), поэтому одинаковые значения не уменьшают размерность пространства параметров.

β

$\beta$

λ

$\lambda$

B

$\bf B$

G

$\bf G$

— Макро

@Macro: Если

является столбцом единиц, то зачем нам оценивать на 1 параметр больше, чем регрессия Пуассона?

G

$\textbf{G}$

— Дэмиен

ну, вам нужно оценить

(«перехват» в логистической части модели) и

(«перехват» в пуассоновской части модели), так что вместо 1 есть 2 параметра

p_{i}

$p_i$

λ_{i}

$\lambda_i$

— Макро

@Robby, чтобы уменьшить количество параметров, вы должны наложить некоторые ограничения. Например,

, хотя нет никаких оснований полагать, что это имеет смысл - тем более что функции связи различны.

λ = β

$\lambda=\beta$

— Макро

@MichaelChernick - он называется Пуассоном с нулевым раздувом, потому что вы в основном «раздувает» вероятность увидеть ноль из пуассоновской области, сохраняя при этом те же относительные вероятности того, что вы видите ненулевое значение, как у Пуассона.

— jbowman

В нулевой накачанной случае Пуассона, если , то и оба имеют ту же длину, что является число столбцов или . Таким образом, количество параметров в два раза превышает количество столбцов матрицы проекта, то есть вдвое больше объясняющих переменных, включая точку пересечения (и любое фиктивное кодирование, которое было необходимо). $\mathbf{B}=\mathbf{G}$ $\beta$ $\lambda$ $\mathbf{B}$ $\mathbf{G}$

В прямой пуассоновской регрессии не нужно беспокоиться о векторе, нет необходимости оценивать . Таким образом, количество параметров - это только длина то есть половина количества параметров в случае с нулевым раздувом. $\mathbf{p}$ $\lambda$ $\beta$

Теперь нет особой причины, по которой должен равняться , но обычно это имеет смысл. Однако можно представить процесс генерирования данных, в котором вероятность наличия каких-либо событий вообще создается одним процессом а совершенно другой процесс определяет количество событий при ненулевых событиях. В качестве надуманного примера я выбираю классные комнаты на основе их результатов экзамена по истории, чтобы сыграть в какую-то несвязанную игру, а затем наблюдаю количество забитых ими голов. В этом случае может сильно отличаться от (если результаты экзамена по истории отличаются от результатов вождения в игре) и и $\mathbf{B}$ $\mathbf{G}$ $\mathbf{G\lambda}$ $\mathbf{B\beta}$ $\mathbf{B}$ $\mathbf{G}$ $\beta$ $\lambda$ иметь разную длину. может иметь больше столбцов, чем или меньше. Таким образом, модель Пуассона с нулевым давлением в этом случае будет иметь больше параметров, чем простая модель Пуассона. $\mathbf{G}$ $\mathbf{B}$

В обычной практике я думаю, что большую часть времени. $\mathbf{G} = \mathbf{B}$

— Питер Эллис
источник