Нулевая инфляция Пуассона


14

Предположим, что независимы иY=(Y1,,Yn)

Yi=0with probability pi+(1pi)eλiYi=kwith probability (1pi)eλiλik/k!

Также предположим, что параметры и p = ( p 1 , , p n ) удовлетворяютλ=(λ1,,λn)p=(p1,,pn)

log(λ)=Bβlogit(p)=log(p/(1p))=Gλ.

Если те же самые ковариаты влияют на и p, так что B = G , то почему для регрессии Пуассона с нулевым раздувом требуется вдвое больше параметров, чем для регрессии Пуассона?λpB=G


2
Вы все еще должны оценить и λ . B и G являются проектными матрицами (данными), поэтому одинаковые значения не уменьшают размерность пространства параметров. βλBG
Макро

@Macro: Если является столбцом единиц, то зачем нам оценивать на 1 параметр больше, чем регрессия Пуассона? G
Дэмиен

ну, вам нужно оценить («перехват» в логистической части модели) и λ i («перехват» в пуассоновской части модели), так что вместо 1 есть 2 параметраpiλi
Макро

1
@Robby, чтобы уменьшить количество параметров, вы должны наложить некоторые ограничения. Например, , хотя нет никаких оснований полагать, что это имеет смысл - тем более что функции связи различны. λ=β
Макро

3
@MichaelChernick - он называется Пуассоном с нулевым раздувом, потому что вы в основном «раздувает» вероятность увидеть ноль из пуассоновской области, сохраняя при этом те же относительные вероятности того, что вы видите ненулевое значение, как у Пуассона.
jbowman

Ответы:


2

В нулевой накачанной случае Пуассона, если , то β и λ оба имеют ту же длину, что является число столбцов B или G . Таким образом, количество параметров в два раза превышает количество столбцов матрицы проекта, то есть вдвое больше объясняющих переменных, включая точку пересечения (и любое фиктивное кодирование, которое было необходимо).B=GβλBG

В прямой пуассоновской регрессии не нужно беспокоиться о векторе, нет необходимости оценивать λ . Таким образом, количество параметров - это только длина β, то есть половина количества параметров в случае с нулевым раздувом.pλβ

Теперь нет особой причины, по которой должен равняться G , но обычно это имеет смысл. Однако можно представить процесс генерирования данных, в котором вероятность наличия каких-либо событий вообще создается одним процессом G λ, а совершенно другой процесс B β определяет количество событий при ненулевых событиях. В качестве надуманного примера я выбираю классные комнаты на основе их результатов экзамена по истории, чтобы сыграть в какую-то несвязанную игру, а затем наблюдаю количество забитых ими голов. В этом случае B может сильно отличаться от G (если результаты экзамена по истории отличаются от результатов вождения в игре) и β и λBGGλBβBGβλ иметь разную длину. может иметь больше столбцов, чем B или меньше. Таким образом, модель Пуассона с нулевым давлением в этом случае будет иметь больше параметров, чем простая модель Пуассона.GB

В обычной практике я думаю, что большую часть времени.G=B

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.