Почему остатки Пирсона из отрицательной биномиальной регрессии меньше, чем из пуассоновской регрессии?


9

У меня есть эти данные:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

Я провел пуассоновскую регрессию

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

И отрицательная биноминальная регрессия:

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

Затем я рассчитал для статистики дисперсии для пуассоновской регрессии:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

И отрицательная биноминальная регрессия:

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

Кто-нибудь может объяснить, БЕЗ ИСПОЛЬЗОВАНИЯ УРАВНЕНИЙ, почему статистика дисперсии для отрицательной биномиальной регрессии значительно меньше, чем статистика дисперсии для пуассоновской регрессии?

Ответы:


9

Это довольно просто, но «без использования уравнений» является существенным препятствием. Я могу объяснить это словами, но эти слова обязательно будут отражать уравнения. Я надеюсь, что это будет приемлемо / все еще имеет некоторую ценность для вас. (Соответствующие уравнения не сложны.)

Есть несколько типов остатков. Необработанные остатки - это просто разница между наблюдаемыми значениями отклика (в вашем случае counts) и прогнозируемыми значениями отклика модели. Остатки Пирсона делят их на стандартное отклонение (квадратный корень из функции дисперсии для конкретной версии обобщенной линейной модели, которую вы используете).

Стандартное отклонение, связанное с распределением Пуассона, меньше отклонения отрицательного бинома . Таким образом, когда вы делите на больший знаменатель, частное становится меньше.

Кроме того, отрицательный бином является более подходящим для вашего случая, потому что вы countsбудете распределены среди населения как единое целое. То есть их дисперсия не будет равна их среднему значению.


4
Хотя ОП требует нематематического объяснения, было бы неплохо увидеть математическое (или несколько столь же строго и ясно) обоснование этого ответа. После прочтения вопроса моя интуиция заключалась в том, что «поскольку Пуассон является (ограничивающим) частным случаем NB, а NB имеет больше параметров, существует большая гибкость в подборе, поэтому, конечно, любая разумная мера остатков не должна увеличиваться при замене. Poisson GLM от NB GLM. " Мне интересно, была ли такая интуиция действительно правильной.
whuber

Если , . Если , и . Таким образом, дисперсия Пуассона равна среднему, дисперсия NegBin больше среднего ( ). Вот почему «стандартное отклонение, связанное с распределением Пуассона, меньше отклонения отрицательного бинома». XPoisson(λ)E[X]=V[X]=λXNegBin(r,p)E[X]=pr/(1p)V[X]=pr/(1p)2p<1(1p)2<(1p)
Серхио

3
@Sergio Суть дела в том, что в модели Пуассона мы работаем с оценкой а не с самой , а в модели NB мы аналогично работаем с двумя оценками и . Ваше сравнение, следовательно, не относится напрямую. Без фактической записи формул для MLE в обеих моделях совершенно не очевидно, какие должны быть связи между этими наборами оценок. Кроме того, остаток Пирсона является отношением, и аргумент о дисперсиях касается только знаменателей, что составляет лишь половину истории. λ^λr^p^
whuber

Оценки MLE согласуются. Проблема в том, что когда, как говорит ганг, «подсчеты будут распределяться как единое целое в популяции. То есть их дисперсия не будет равна их среднему значению», вы никогда не сможете получить оценочную дисперсию Пуассона больше, чем предполагаемую Имею ввиду Пуассона, даже если ваши оценки объективны и последовательны. Это проблема неправильной спецификации.
Серхио

5

Для модели Пуассона, если ожидание для го наблюдения равно его дисперсия равна , и, следовательно, остаток ПирсонаiYiμiμi

yiμ^iμ^i

где - оценка среднего. Параметризация отрицательной биномиальной модели используется в MASS объясняется здесь . Если ожидание для го наблюдения равно его дисперсия равна , и, следовательно, остаток Пирсонаμ^iYiμiμi+μ2θ

yiμ~iμ~i+μ~2θ

где - оценка среднего значения. Чем меньше значение т. Е. Больше экстра-пуассоновская дисперсия, тем меньше остаток по сравнению с его пуассоновским эквивалентом. [Но, как указал @whuber, оценки средних значений не совпадают, , потому что процедура оценки взвешивает наблюдения в соответствии с их предполагаемой дисперсией. Если бы вы делали повторные измерения для го шаблона предиктора, они были бы ближе, и в целом добавление параметра должно было бы лучше соответствовать всем наблюдениям, хотя я не знаю, как это строго продемонстрировать. Тем не менее, количество популяции, которое вы оцениваете, больше, если модель Пуассона справедлива, поэтому это не должно быть сюрпризом.]μ~θμ^μ~i


1
Спасибо за введение некоторых уравнений. Но будут ли в двух моделях иметь одинаковые значения? (Я так не думаю.) Если нет, то как можно сравнить два остатка Пирсона? μi
whuber

@whuber В этом случае оказывается, что установленные значения для обеих моделей практически идентичны. В конце концов, «истинная» модель на самом деле просто имеет точку пересечения и в основном моделирует среднее значение, поскольку в моделировании нет связи между x и Y.
Jsk

1
@jsk Да, я посмотрел на данные и запустил код. (Кстати, возможно изменить данные и получить по существу одинаковую статистику дисперсии для двух моделей.) Увы, ваша точка зрения, которая является действительной, все еще не решает конкретный вопрос и не затрагивает (неявный) общий вопрос о сравнение остатков Пуассона с остатками NB, потому что оцененные отклонения также могут быть почти идентичными. Одним из потенциально запутанных аспектов настоящего ответа является использование символа " " для обозначения того, какие (в принципе) могут быть разные оценки в двух моделях одних и тех же данных. μi
whuber

1
@whuber Действительно, у вас есть действительные замечания по использованию . Интересно, что я не могу найти способ смоделировать данные, которые привели бы к более низкой статистике дисперсии для Пуассона, чем NB. Возможно, это невозможно? Я согласен, что это имеет смысл интуитивно. Это нелегко доказать, поскольку не существует закрытого решения для mle, когда у вас есть glm с функцией связи, отличной от тождества. Но да, легко сделать статистику двух дисперсий очень похожей. μi
Jsk

1
@jsk - один теоретический аргумент, чтобы предположить, что модель NB всегда будет соответствовать лучше, чем Пуассон, состоит в том, что вы можете написать NB как распределение пуассон-гамма-составляющих. Итак, у вас есть а затем дает отрицательную биномиальную модель . Теперь добавление этих параметров позволяет модели приблизить прогнозируемое среднее к наблюдаемому значению (когда вы увидите , уменьшая остаток).(yi|λ,vi,r)Poisson(λvi)(vi|λ,r)Gamma(r,r)viyi>λvi>1(yi|λ,r)NB(r,λr+λ)viyi>λvi>1
вероятностное
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.