Распределение Твиди может моделировать искаженные данные с точечной массой в нуле, когда параметр (показатель степени в отношении средней дисперсии) находится между 1 и 2.
Точно так же модель с нулевой раздувкой (будь то непрерывная или дискретная) может иметь большое количество нулей.
У меня возникают проблемы с пониманием, почему, когда я делаю прогнозирование или вычисляю подогнанные значения с помощью таких моделей, все прогнозируемые значения не равны нулю.
Могут ли эти модели на самом деле предсказать точные нули?
Например
library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")
pred
Теперь не содержит нулей. Я думал, что полезность таких моделей, как распределение Твиди, проистекает из его способности предсказывать точные нули и непрерывную часть.
Я знаю, что в моем примере переменная x
не очень предсказуема.