Отклонение является концепцией GLM, модели ZIP и ZINB не являются glms, а сформулированы как конечные смеси распределений, которые являются GLM и поэтому могут быть легко решены с помощью EM-алгоритма.
Эти заметки кратко описывают теорию отклонений. Если вы прочитаете эти заметки, вы увидите доказательство того, что насыщенная модель регрессии Пуассона имеет логарифмическую вероятность
ℓ(λs)=∑i=1,∀yi≠0n[yilog(yi)−yi−log(yi!)]
что вытекает из оценки плагина .yi=λ^i
Сейчас я перейду к вероятности ZIP, потому что математика проще, аналогичные результаты верны для ZINB. К сожалению для ZIP, нет простых отношений, как в Пуассоне. В - й наблюдения лог-правдоподобияi
ℓi(ϕ,λ)=Zilog(ϕ+(1−ϕ)e−λ)+(1−Zi)[−λ+yilog(λ)−log(yi!)].
не наблюдается , так , чтобы решить это , вы должны были бы взять частные производные WRT как и , установить уравнения 0 , а затем решить для и . Трудность здесь в том, что значения , они могут входить в или в и это невозможно без наблюдения которое можно поместить наблюдения . Однако, если бы мы знали значение нам не понадобилась бы модель ZIP, потому что у нас не было бы отсутствующих данных. Наблюдаемые данные соответствуют вероятности «полных данных» в формализме ЭМ.Ziλϕλϕyi=0λ^ϕ^Ziyi=0Zi
Один подход, который может быть разумным, - это работать с ожиданием относительно полного правдоподобия журнала данных, которое удаляет и заменяет ожидание, это часть того, что вычисляет алгоритм EM (шаг E) с самыми последними обновлениями. Я не знаю ни одной литературы, которая изучала этот подход к отклонению, хотя.ZiE(ℓi(ϕ,λ))Ziexpected
Кроме того, этот вопрос был задан первым, поэтому я ответил на этот пост. Тем не менее, есть еще один вопрос на ту же тему с хорошим комментарием Гордона Смита здесь:
отклонение для модели с нулевым раздувом составного пуассона, непрерывные данные (R),
где он упомянул тот же ответ (это развитие этого комментария скажем) плюс они упомянули в комментариях к другому посту статью, которую вы можете прочитать. (отказ от ответственности, я не читал упомянутую статью)