Одинаковые коэффициенты, оцениваемые в модели Пуассона и Квази-Пуассона

При моделировании данных подсчета претензий в страховой среде я начал с Пуассона, но затем заметил чрезмерную дисперсию. Квази-Пуассон лучше моделировал большее отношение средней дисперсии, чем основной Пуассон, но я заметил, что коэффициенты были идентичны как в модели Пуассона, так и в модели Квази-Пуассона.

Если это не ошибка, почему это происходит? В чем преимущество использования квази-пуассона над пуассоном?

Что следует отметить:

Основные потери превышены, что (я считаю) не позволило работать Tweedie - но это был первый дистрибутив, который я попробовал. Я также исследовал модели NB, ZIP, ZINB и Hurdle, но все же обнаружил, что Quasi-Poisson обеспечивает наилучшее соответствие.
Я проверил на чрезмерную дисперсию через дисперсию в пакете AER. Мой дисперсионный параметр составлял примерно 8,4 с p-величиной в 10 ^ -16 величины.
Я использую glm () с family = poisson или quasipoisson и ссылку на журнал для кода.
При запуске кода Пуассона я получаю предупреждения «In dpois (y, mu, log = TRUE): нецелое число x = ...».

Полезные темы SE в соответствии с руководством Бена:

— Фрэнк Х.
источник

Разве распространение Tweedie не будет лучшей идеей?

— Даффимо

Пробовал Tweedie с самого начала, но наши данные о потерях не основаны, а скорее на избыточной основе. Также использовались модели Negative Binomial, ZIP и Hurdle для решения проблемы дисперсии.

— Фрэнк Х.

Можете ли вы объяснить немного больше о том, откуда берутся нецелые значения в ваших данных?

— Бен Болкер

Вы не должны моделировать частоты / скорости, вычисляя соотношения counts/exposure. Скорее, вы должны добавить смещение ( offset(log(exposure))) термин для ваших моделей.

— Бен Болкер

Это практично, хотя наиболее важно при моделировании Пуассона (не квази-Пуассона). Я не знаю хорошей ссылки на первый план; если вы не можете найти соответствующий ответ здесь, на CrossValidated, это будет хороший ответ.

— Бен Болкер

$\chi^2$ $p$

$p$

Как вы прокомментировали выше, существует множество разных подходов к избыточной дисперсии (Твиди, разные отрицательные биномиальные параметризации, квази-правдоподобие, нулевая инфляция / изменение).
С коэффициентом сверхдисперсности> 5 (8,4) я бы немного беспокоился о том, вызвано ли оно какой-то несовпадением моделей (выбросы, нулевая инфляция [которую, я вижу, вы уже пробовали), нелинейность), а не чем представляющих общую неоднородность. Мой общий подход к этому - графическое исследование исходных данных и диагностика регрессии ...

— Бен Болкер
источник

Очень полезно. Теперь я вижу, что p-значения для переменных и уровней переменных в Пуассоне намного более статистически значимы, чем для квази-Пуассона, из-за упомянутого вами масштабирования. Я проверил выбросы, но не нашел в этом проблемы. Какие могут быть некоторые другие проблемы, которые маскируются из-за чрезмерной дисперсии, или примеры таких подходов, чтобы найти эти проблемы?

— Фрэнк Х.

Преимущественно нелинейность ответов по шкале ссылок (лог); проверьте графики «остатки-против-подогнанные» и «остатки-против-предиктор-переменные», чтобы увидеть, есть ли шаблоны.

— Бен Болкер

+1 Красиво выложено! Я действительно ценю ясность вашего первого абзаца.

— Алексис