Сравнение регрессионных моделей по данным подсчета

Недавно я подобрал 4 модели множественной регрессии для одного и того же предиктора / данных ответа. Две модели мне подходят с пуассоновской регрессией.

model.pois <- glm(Response ~ P1 + P2 +...+ P5, family=poisson(), ...)
model.pois.inter <- glm(Response ~ (P1 + P2 +...+ P5)^2, family=poisson(), ...)

Две модели мне подходят с отрицательной биномиальной регрессией.

library(MASS)
model.nb <- glm.nb(Response ~ P1 + P2 +...+ P5, ...)
model.nb.inter <- glm.nb(Response ~ (P1 + P2 +...+ P5)^2, ...)

Можно ли использовать статистический тест для сравнения этих моделей? Я использовал AIC в качестве меры подгонки, но AFAIK это не настоящий тест.

— Даниэль Стендж
источник

Вы хотите , чтобы сравнить модели подгонку используя статистический тест, не так ли? Какую гипотезу вы хотели бы проверить?

— Firefeather

@Firefeather Например, я хотел бы проверить , является ли подгонка model.nb.interэто значительно лучше , чем у model.pois.inter. Да, AIC ниже, но насколько ниже значительно лучше ?

— Даниэль Стендж

Примечание: ответ на этот вопрос не обязательно должен включать AIC.

— Даниэль Стендж

Я не знаю ответа на этот вопрос, но я могу дать старт. Я знаю , что вы можете использовать тест для сравнения с (а так же сравнить с ), но я не могу гарантировать , что сравнения между моделью Пуассона и отрицательной биномиальной моделью будет работать. Интересно, будет ли тест для сравнения дисперсий каждой пары надежным.

F

$F$ model.poismodel.pois.intermodel.nbmodel.nb.inter

F

$F$

— Firefeather

@ Firefeather, да, я знаю о необходимости контролировать уровень уверенности в семье. Может быть, Шеффе более уместен здесь, чем, скажем, Бонферрони?

— Даниэль Стендж

Ответы:

Вы можете сравнить отрицательную биномиальную модель с соответствующей моделью Пуассона с помощью теста отношения правдоподобия. Модель Пуассона эквивалентна отрицательной биномиальной модели с параметром сверхдисперсии, равным нулю. Поэтому они являются вложенными моделями, и отношения правдоподобия являются действительными. Сложность состоит в том, что параметр сверхдисперсии ограничен неотрицательным, то есть он логически не может быть меньше нуля, поэтому нулевая гипотеза находится на границе пространства параметров. Это означает, что вместо того, чтобы сравнивать двойное логарифмическое правдоподобие с распределением хи-квадрат с одной степенью свободы, вам нужно сравнить его с распределением смеси, состоящим из равных частей хи-квадрат с 1 df и точечной массой в нуле (распределение хи-квадрат с нулевыми степенями свободы). На практике это означает, что вы можете вычислить значение p, используя хи-квадрат с 1 df, а затем уменьшить его вдвое. Для получения дополнительной информации и предыстории см. Пример 5Self & Liang JASA 1987; 82 : 605-610. ,

Обратите внимание, что некоторые статистические программные пакеты, такие как Stata, сделают все это для вас автоматически, когда вы подходите к отрицательной биномиальной модели. На самом деле я бесстыдно извлек большую часть вышеперечисленного из справочной системы Stata - если у вас есть Stata, посмотрите help j_chibar.

— одна остановка
источник

Я верю, что anova()R можно использовать для этого. Несмотря на название, это тест отношения правдоподобия. Кроули в своей книге «The R» имеет несколько примеров использования.

— Роман Луштрик
источник

Как можно заметить, поскольку модели являются вложенными, вы можете выполнить тест отношения правдоподобия.

В целом, хотя это не так, поэтому, если вы хотите сравнить не вложенные модели, вы можете использовать тест Вуонга .

— Xodarap
источник