Отрицательный вопрос о биномиальной регрессии - плохая модель?


31

Я читаю очень интересную статью Селлерса и Шмуэли о регрессионных моделях для подсчета данных. В начале (стр. 944) они цитируют McCullaugh и Nelder (1989), утверждая, что отрицательная биномиальная регрессия непопулярна и имеет проблематичную каноническую связь. Я нашел упомянутый отрывок, и он говорит (стр. 374 из М и N)

«Похоже, в приложениях мало используется отрицательное биномиальное распределение; в частности, использование канонической связи проблематично, поскольку делает линейный предиктор функцией параметра функции дисперсии».

На предыдущей странице они дают эту функцию ссылки как

η=log(α1+α)=log(μμ+k)

и дисперсионная функция

V=μ+μ2k.

Распределение дается как

Pr(Y=y;α,k)=(y+k1)!y!(k1)!αy(1+α)y=k

Я обнаружил, что регрессия NB довольно широко используется (и рекомендуется в нескольких книгах). Все эти варианты использования и рекомендации ошибочны?

Каковы последствия этой проблемной ссылки?


3
Вероятно, это связано, по крайней мере частично, с цитатой, относящейся к 1989 году. Я готов поспорить, что большинство современных применений NB более поздние. Модель NB очень полезна обычно, когда вы имеете дело с проблемами чрезмерной дисперсии в обычном случае биномиальной вероятности (т. Е. Логистической регрессии).

5
Я не уверен в деталях (и даже не новичок, когда дело доходит до NegBin), но вспоминаю, как Джозеф Хилбе обсуждал это в своей книге «Отрицательная биноминальная регрессия» (2-е издание). На стр.9 он комментирует, что является естественным выражением представления Пуассона-гамма-смеси NegBin. После их книги 1989 года Нелдер разработал макрос kk для GenStat, в котором он предпочитает прямую связь между и с дисперсией и что эта прямая параметризация оказалась очень популярной совсем недавно. Vαμ2V=μ+αμ2
Восстановить Монику - Дж. Симпсон

3
Я бы взял эти комментарии с недоверием. Re MN: У них было очень строгое определение того, что такое GLM (я думаю, что на это есть веские причины). Модели Негбина с неизвестным параметром формы не придерживаются очень строгого определения GLM МакКалла, Нелдера, Прегибона и так далее. Так что технически это не GLM почти во всех случаях использования. Интерпретируется как немного другой модельный класс и оценивается по максимальной вероятности, больше никаких проблем. Re S & S нужен был кейс для мотивации COM Poisson, поэтому цитата M & N пригодилась.
Момо

4
Я не понимаю, почему предполагаемые плохие свойства канонической ссылки делают модель Негбина в целом нежелательной. Вы выбираете функцию связи на основе данных и проблемы, которую вы пытаетесь решить, а не на основании математической теории. На самом деле я сомневаюсь, что кто-то использует каноническую ссылку. Эта история похожа на гамма GLM; каноническая ссылка обратная, но я бы поспорил, что гораздо больше людей используют ссылку журнала из-за простоты интерпретации и естественного применения во многих ситуациях.
Хонг Оои

4
Насколько я могу судить, почти никогда нет причин использовать отрицательную биномиальную модель. Даже если ваши данные действительно были получены с помощью отрицательной биномиальной модели, тогда регрессия Пуассона дает непротиворечивые оценки влияния независимых переменных на средний отклик - и это практически всегда то, что исследователь хочет оценить. Обычные стандартные ошибки ошибочны, если предположение Пуассона неверно, но самозагрузка исправляет это. Каждый раз, когда , вы можете последовательно оценить используя Пуассона. E{Y|X}=exp(Xβ)β
Билл

Ответы:


10

Я оспариваю утверждения с нескольких точек зрения:

i) Хотя каноническая ссылка вполне может быть «проблематичной», не сразу очевидно, что кто-то заинтересуется этой ссылкой - тогда как, например, лог-ссылка в Пуассоне часто бывает удобной и естественной, и поэтому люди часто заинтересованы в этом. Тем не менее, в случае Пуассона люди смотрят на другие функции связи.

Поэтому мы не должны ограничивать наше рассмотрение канонической ссылкой.

«Проблемная связь» сама по себе не является особенно убедительным аргументом против отрицательной биномиальной регрессии.

Ссылка на журнал, например, кажется вполне разумным выбором в некоторых отрицательных биномиальных приложениях, например, в случаях, когда данные могут быть условно пуассоновскими, но существует неоднородность по скорости Пуассона - ссылка на лог может быть почти такой же интерпретируемой как в случае с Пуассоном.

Для сравнения, я использую Gamma GLM достаточно часто, но я не помню, чтобы (за исключением примеров из учебников) когда-либо использовал его каноническую ссылку - я использую ссылку журнала почти всегда, так как это более естественная ссылка для решения проблем. Я склонен работать с

ii) «Мало что было сделано ... в приложениях», возможно, было почти правдой в 1989 году, но я не думаю, что это стоит сейчас. [Даже если он действительно действовал сейчас, это не аргумент, что это плохая модель, только то, что он не был широко использован - что может случиться по разным причинам.]

Отрицательная биномиальная регрессия стала более широко использоваться, поскольку она стала более доступной, и я вижу, что сейчас она используется в приложениях гораздо более широко. В R, например, я использую функции, MASSкоторые поддерживают его (и соответствующая книга, Venables и Ripley's, Modern Applied Statistics с S , использует отрицательную биномиальную регрессию в некоторых интересных приложениях) - и я использовал некоторые функциональные возможности в нескольких других пакетах еще до того, как я использовал его в R.

Я бы использовал негативную биномиальную регрессию чаще, даже раньше, если бы она была легко доступна для меня; Я ожидаю, что то же самое верно для многих людей - поэтому аргумент о том, что он использовался мало, кажется скорее аргументом.

Хотя можно избежать отрицательной биномиальной регрессии (скажем, с помощью моделей с избыточным рассеянием Пуассона) или ряда ситуаций, когда на самом деле не имеет большого значения, что вы делаете , есть различные причины, по которым это не совсем удовлетворительно.

Например, когда мой интерес больше касается интервалов прогнозирования, чем оценок коэффициентов, тот факт, что коэффициенты не меняются, может не быть достаточной причиной, чтобы избежать отрицательного бинома.

Конечно, есть еще другие варианты, которые моделируют дисперсию (например, Конвей-Максвелл-Пуассон, который является предметом упомянутой вами статьи); в то время как это, безусловно, варианты, иногда бывают ситуации, когда я вполне счастлив, что отрицательный бином является достаточно хорошей «моделью» в качестве модели для моей проблемы.

Все эти варианты использования и рекомендации ошибочны?

Я действительно так не думаю! Если бы они были, это должно было стать достаточно ясно к настоящему времени. Действительно, если Маккалла и Нелдер продолжали чувствовать то же самое, у них не было ни недостатка возможностей, ни недостатка форумов, на которых можно было бы уточнить оставшиеся вопросы. Нелдер скончался (2010), но МакКаллах, видимо, все еще рядом .

Если этот короткий отрывок из МакКаллага и Нелдера - это все, что у них есть, я бы сказал, что это довольно слабый аргумент.

Каковы последствия этой проблемной ссылки?

Я думаю, что проблема в основном связана с функцией дисперсии и функцией связи, которая связана, а не связана (как в случае почти всех других основных семейств GLM, широко используемых), что делает интерпретацию в масштабе линейного предиктора менее простой (это не значит, что это единственная проблема; я думаю, что это главная проблема для практикующего). Это не большая часть сделки.


Для сравнения я вижу, что в последнее время модели Твиди используются гораздо более широко, и я не вижу людей, обеспокоенных тем, что появляется как в функции дисперсии, так и в канонической связи (и в большинстве случаев даже не сильно беспокоится). о канонической ссылке).p

Ничто из этого не должно ничего отнимать от моделей Конвея-Максвелла-Пуассона (предмет статьи Селлерса и Шмуэли), которые также становятся все более широко используемыми - я, конечно, не хочу принимать участие в отрицательном биноме против СОМ. -Пуассон стрельба матч.

Я просто не рассматриваю это как одно или другое, так же как (сейчас я говорю более широко) я занимаю чисто байесовскую или чисто частую позицию по статистическим проблемам. Я буду использовать все, что мне кажется лучшим выбором в конкретных обстоятельствах, в которых я нахожусь, и каждый выбор имеет свои преимущества и недостатки.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.