Интерпретация графика невязок и подгоночных значений из регрессии Пуассона


25

Я пытаюсь согласовать данные с GLM (регрессия Пуассона) в R. Когда я построил графики остатков и подгоночных значений, график создал несколько (почти линейных с небольшой вогнутой кривой) «линий». Что это значит?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

введите описание изображения здесь


Я не знаю, можете ли вы загрузить сюжет (иногда новички не могут), но если нет, можете ли вы хотя бы добавить код данных и R к своему вопросу, чтобы люди могли оценить его?
gung - Восстановить Монику

Джоселин, я обновил твой пост информацией, которую ты добавил в комментарий. Я также отметил это, так homeworkкак вы говорили о назначении.
ЧЛ

попробуйте plot (jitter (mod1)), чтобы увидеть, является ли график немного более читабельным. Почему бы вам не определить для нас невязки и не высказать свое предположение о том, как интерпретировать график самостоятельно.
Майкл Бишоп

1
Исходя из вопроса, я собираюсь предположить, что вы понимаете распределение Пуассона и регистр Пуасона, и что говорит вам график зависимости остатков от подгоночных значений (обновите, если это не так), таким образом, вы просто задаетесь вопросом о странном появлении точек в сюжете. Это домашнее задание, мы не отвечаем как общая политика, но даем подсказки. Я заметил, что у вас есть много ковариат, интересно, если у вас есть 1 непрерывный и много двоичных ковариат.
gung - Восстановить Монику

1
Два продолжения из комментария Гунга. Сначала попробуй table(dvisits$doctorco). Что соответствуют 10 изогнутым линиям на вашем графике в этой таблице? Кроме того, при наличии более 5000 наблюдений не стоит слишком беспокоиться о подборе 13 коэффициентов регрессии.
Гость

Ответы:


29

Это вид, который вы ожидаете от такого графика, когда зависимая переменная дискретна.

kyy=ky^ky^ky^y^1log(y^)ky

Мы можем воспроизвести рассматриваемый график довольно близко с помощью аналогичной, но произвольной модели (с использованием небольших случайных коэффициентов):

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

Остатки против встроенных


6
(+1) Цвет показывает, что происходит.
кардинал

Так что же это за сюжет? Тексты (Статистическое моделирование для биомедицинских исследователей: простое введение в анализ сложных данных, Dupont, 2002, стр. 316, например) указывают, что подобранный и остаточный график должен быть центрирован относительно нулевой линии остатка, и любой вентилятор (если он необработан) остатки) или нет (если отклонение, например). Имея ограниченный диапазон значений в выходной переменной, вы получаете эти полосы, и, как на приведенном выше графике, они не центрированы относительно линии при y = 0. Как мы узнаем остаточный график ОП (или примерный график) сделано в этом ответе) указывает на то, что модель хорошо соответствует данным?
Мег

1
@Meg Этот совет не относится напрямую к остаткам GLM. Обратите внимание, что модель, используемая для иллюстрации этого ответа, как известно, является правильной, поскольку она используется для генерации данных.
whuber

1/2: Спасибо @whuber. Я понимаю, что для этого ответа модель, как известно, является правильной, поскольку данные были смоделированы из данного распределения, но на практике это неизвестно (как в посте ОП). Кроме того, то, что я написал об остатках , применимо к регрессии POI (не все GLM, нет, но этот) - ссылка, которую я дал, конкретно обсуждала регрессию POI. Я только видел тексты, показывающие стандартизированные остатки POI (например, Пирсона или отклонения) с центром около y = 0, поэтому я не уверен, что мне нужно искать, потому что для этой модели (что, очевидно, правильно), график выглядит ничего подобного.
Мег

2/2: Есть ли у вас ссылка, в которой случайно обсуждаются остатки POI?
Мег

8

Иногда подобные полосы на остаточных графиках представляют точки с (почти) идентичными наблюдаемыми значениями, которые получают разные прогнозы. Посмотрите на ваши целевые значения: сколько они уникальных значений? Если мое предложение верно, в вашем наборе данных должно быть 9 уникальных значений.


1
0,1,,9

-3

Этот шаблон характерен для неправильного соответствия семьи и / или ссылки. Если у вас есть избыточные данные, то, возможно, вам следует рассмотреть отрицательное биномиальное (количество) или гамма (непрерывное) распределение. Кроме того, вы должны строить свои остатки против преобразованного линейного предиктора, а не предикторов при использовании обобщенных линейных моделей. Чтобы преобразовать предиктор Пуассона, вам нужно взять 2-кратный квадратный корень от линейного предиктора и вычеркнуть свои остатки против этого. Кроме того, остатки не должны быть исключительно остатками Пирсона, попробуйте отклонения отклонений и изученных остатков.


3
Почему в 2 раза больше квадратного корня, если каноническим звеном семейства Пуассонов в GLM является log? Разве это не должно быть exp () линейного предиктора? Но я не вижу, в чем проблема с отображением остатков по отношению к самому линейному предиктору, что, я думаю, и заключается в том, что здесь делается - возможно, вы могли бы остановиться на этом.
Питер Эллис

Не могли бы вы объяснить, какой аспект «шаблона» привлекает ваше внимание к возможной неправильной спецификации модели, Райан? Это кажется тонкой вещью, но потенциально является важным пониманием.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.