Я хотел бы проверить, какая регрессия лучше всего подходит для моих данных. Моя зависимая переменная - это число и имеет много нулей.
И мне понадобится некоторая помощь, чтобы определить, какую модель и семейство использовать (пуассоновское или квазипуассонное или нулевая инфляция пуассоновых регрессий) и как проверить предположения.
- Регрессия Пуассона: насколько я понимаю, сильным предположением является то, что зависимая переменная означает среднее = дисперсия. Как вы это тестируете? Насколько близко они должны быть? Используются ли для этого безусловные или условные средние и дисперсии? Что мне делать, если это предположение не выполняется?
- Я читал, что если дисперсия больше, чем среднее значение, мы имеем избыточную дисперсию, и потенциальный способ справиться с этим - это включить больше независимых переменных или семейство = квазипуассон. Есть ли у этого дистрибутива какие-либо другие требования или предположения? Какой тест я использую, чтобы увидеть, подходит ли (1) или (2) лучше - просто
anova(m1,m2)
? - Я также читал, что отрицательное биномиальное распределение может использоваться при появлении чрезмерной дисперсии. Как мне сделать это в R? В чем разница с квазипуассоном?
Пуассоновская регрессия с нулевым раздувом: я прочитал, что с помощью теста vuong проверяется, какие модели лучше подходят.
> vuong (model.poisson, model.zero.poisson)
Это верно? Какие предположения имеет регрессия с нулевым уровнем инфляции?
Статистическая консалтинговая группа UCLA по академическим технологиям имеет раздел о пуассоновых регрессиях с нулевым уровнем инфляции и тестирует модель с нулевым уровнем инфляции (a) и стандартную модель Пуассона (b):
> m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
> m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
> vuong(m.a, m.b)
Я не понимаю, что делает | persons
часть первой модели, и почему вы можете сравнить эти модели. Я ожидал, что регрессия будет такой же, и я просто использую другую семью.