При моделировании данных подсчета претензий в страховой среде я начал с Пуассона, но затем заметил чрезмерную дисперсию. Квази-Пуассон лучше моделировал большее отношение средней дисперсии, чем основной Пуассон, но я заметил, что коэффициенты были идентичны как в модели Пуассона, так и в модели Квази-Пуассона.
Если это не ошибка, почему это происходит? В чем преимущество использования квази-пуассона над пуассоном?
Что следует отметить:
- Основные потери превышены, что (я считаю) не позволило работать Tweedie - но это был первый дистрибутив, который я попробовал. Я также исследовал модели NB, ZIP, ZINB и Hurdle, но все же обнаружил, что Quasi-Poisson обеспечивает наилучшее соответствие.
- Я проверил на чрезмерную дисперсию через дисперсию в пакете AER. Мой дисперсионный параметр составлял примерно 8,4 с p-величиной в 10 ^ -16 величины.
- Я использую glm () с family = poisson или quasipoisson и ссылку на журнал для кода.
- При запуске кода Пуассона я получаю предупреждения «In dpois (y, mu, log = TRUE): нецелое число x = ...».
Полезные темы SE в соответствии с руководством Бена:
Разве распространение Tweedie не будет лучшей идеей?
—
Даффимо
Пробовал Tweedie с самого начала, но наши данные о потерях не основаны, а скорее на избыточной основе. Также использовались модели Negative Binomial, ZIP и Hurdle для решения проблемы дисперсии.
—
Фрэнк Х.
Можете ли вы объяснить немного больше о том, откуда берутся нецелые значения в ваших данных?
—
Бен Болкер
Вы не должны моделировать частоты / скорости, вычисляя соотношения
—
Бен Болкер
counts/exposure
. Скорее, вы должны добавить смещение ( offset(log(exposure))
) термин для ваших моделей.
Это практично, хотя наиболее важно при моделировании Пуассона (не квази-Пуассона). Я не знаю хорошей ссылки на первый план; если вы не можете найти соответствующий ответ здесь, на CrossValidated, это будет хороший ответ.
—
Бен Болкер