Имеет ли смысл изучать графики невязок относительно зависимой переменной?

11

Я хотел бы знать, имеет ли смысл изучать графики невязок относительно зависимой переменной, когда я получаю одномерную регрессию. Если это имеет смысл, что означает сильная линейная растущая корреляция между остатками (по оси Y) и оценочными значениями зависимой переменной (по оси X)?

введите описание изображения здесь

regression residuals

— Луиджи
источник

3

Я не уверен, что вы подразумеваете под "сильной, линейной, растущей корреляцией". Вы можете показать сюжет? Вполне разумно построить остатки по отношению к установленным значениям. В общем, вы хотите, чтобы не было никаких отношений - плоская горизонтальная линия, проходящая через центр. Кроме того, вы хотите, чтобы вертикальная дисперсия остатков была постоянной с левой стороны вашего графика вправо.

— gung - Восстановить Монику

Здравствуй. Спасибо за ваш ответ. Это сюжет: img100.imageshack.us/img100/7414/bwages.png

— Луиджи

Это сбивает с толку. Позвольте мне убедиться, что я понимаю: вы запустили регрессионную модель, а затем построили графики остатков в зависимости от установленных значений, и это то, что вы получили, верно? Это не должно выглядеть так. Можете ли вы отредактировать свой вопрос и вставить код, который вы использовали для модели и графика?

— gung - Восстановить Монику

Вы правильно поняли. Извините, но я не знаю, как получить код, я запустил регрессию и составил график остатков с помощью программы Gretl.

— Луиджи,

2

Первоначально я не видел комментарий от @ mark999, когда писал свой ответ ниже. Я думаю, что его подозрение верно, что это остатки против значений y. Луиджи, переделай свой график - не пытайся интерпретировать его, когда ты можешь ошибаться в отношении переменных.

— Майкл Бишоп

12

Предположим, что у вас есть регрессия , где . Тогда . Чем выше значение , тем больше остаток. Напротив, график остатков против должен показывать систематической связи. Кроме того , прогнозируемое значение должна быть приблизительно $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ $\beta_1 \approx 0$ $y_i - \beta_0 \approx \epsilon_i$ $y$ $x$ $\hat{y}_i$ $\hat{\beta}_0$ --- то же самое для каждого наблюдения. Если все прогнозируемые значения примерно одинаковы, они должны быть не связаны с ошибками.

Сюжет говорит мне, что и по существу не связаны (конечно, есть лучшие способы показать это). Дайте нам знать , если ваш коэффициент не близко к 0. $x$ $y$ $\hat{\beta}_1$

В качестве лучшей диагностики используйте график остатков по отношению к прогнозируемой заработной плате или по значению . Вы не должны наблюдать различимый образец на этих графиках. $x$

Если вы хотите небольшую демонстрацию R, вот вам:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

— Чарли
источник

Это не означает, что только из-за

, возможно, что модели потребуются дополнительные объясняющие переменные, такие как полиномиальные члены.

β_{1} = 0

$\beta_1=0$

— Биостат

5

Предполагая, что оценочная модель правильно указана ...

Обозначим через , матрица представляет собой матрицу проекции, так что и . $P_X=X(X'X)^{-1}X'$ $P_X$ $P_X^2=P_X$ $P_X'=P_X$

. $Cov(\hat{Y},\hat{e})=Cov(P_XY,(I-P_X)Y)=P_XCov(Y,Y)(I-P_X)'=\sigma^2P_X(I-P_X)=0$

Таким образом, график рассеяния остатков от предсказанной зависимой переменной не должен показывать корреляцию.

Но!

$Cov(Y,\hat{e})=Cov(Y,(I-P_X)Y)=Cov(Y,Y)(I-P_X)'=\sigma^2(I-P_X)$

$\sigma^2(I-P_X)$

Насколько я знаю, Gretl по умолчанию создает график остатков по отношению к исходной зависимой переменной (не прогнозируемой!).

— Roah
источник

Я ценю другую возможность. Вот где некоторые знания о Gretl полезны. Интересно, однако, насколько правдоподобно, что это как настоящий ответ. Используя мои смоделированные данные, я сопоставил и построил графики остатков по сравнению с исходным dv; r = .22 и сюжет очень похож на мой 3-й сюжет, а не на вопросный сюжет. Конечно, я обработал эти данные, чтобы проверить правдоподобность моей истории - они могут не подходить для проверки вашей.

— gung - Восстановить Монику

@ Gung Что вы имеете в виду, вы использовали свои смоделированные данные?

— Майкл Бишоп

@MichaelBishop, если вы посмотрите на мой ответ, вы увидите, что я смоделировал данные, чтобы опробовать мою историю, чтобы увидеть, будет ли она выглядеть как опубликованный сюжет. Мой код и графики представлены. Так как я указал семя, оно может быть воспроизведено любым человеком, имеющим доступ к R.

— gung - Восстановить Монику

4

Возможно ли, что вы путаете подогнанные / прогнозируемые значения с фактическими значениями?

Как сказали @gung и @biostat, вы надеетесь, что между подобранными значениями и остатками нет никакой связи. С другой стороны, следует ожидать, что обнаружение линейной зависимости между фактическими значениями зависимой переменной / результата и остаточными значениями не является особенно информативным.

Добавлено для пояснения предыдущего предложения: не следует ожидать какой-либо линейной зависимости между остатками и фактическими значениями исхода ... Для низких измеренных значений Y прогнозируемые значения Y из полезной модели будут иметь тенденцию быть выше, чем фактические измеренные значения и наоборот.

— Майкл Бишоп
источник

Смысл того, что вы говорите, заключается в том, что, если значения постоянно недооцениваются при низких значениях Y, и постоянно переоцениваются при высоких значениях Y, это нормально. Это проблема, верно?

— rolando2

@ rolando2, я не имел в виду то, что вы говорите, я имел в виду, хотя, возможно, я должен уточнить свой ответ. Как вы сказали, постоянное занижение прогноза при низких значениях Y и завышение прогноза при высоких значениях Y будет признаком очень плохой модели. Я представлял себе обратное: чрезмерное прогнозирование при низких значениях Y и недостаточное прогнозирование при высоких значениях Y. Это явление является обычным явлением, и его следует ожидать примерно пропорционально тому, какую разницу в зависимой переменной вы можете объяснить. Представьте, что у вас нет переменных, которые предсказывают Y, поэтому вы всегда используете среднее значение в качестве своего прогноза

— Майкл Бишоп,

1

То, что вы сказали, имеет смысл для меня, за исключением одной вещи. У меня возникли проблемы с представлением, что такая сильная тенденция, как показала Луиджи, когда-либо показалась бы в здравом или желательном решении, даже если эта тенденция перешла с левого верхнего угла на правый нижний.

— rolando2

1

@ rolando2, остатки обычно определяются как наблюдаемые - установлены, поэтому отрицательные остатки являются завышенными прогнозами. В правильно определенной модели с небольшим объяснительным воздействием - я социолог, поэтому я вижу их все время - будет существовать сильная положительная связь между остатками и наблюдаемыми значениями результатов. Если это соотношение между остатками и фактическим графиком, то тренд от верхнего левого угла к нижнему правому будет сигналом плохо неверно определенной модели, о которой вы изначально беспокоились.

— Майкл Бишоп

Хорошо моя вина Как писали Майкл Бишоп и Роа, Гретл строит остатки по отношению к наблюдаемому y, а не к предсказанному. Я очень сожалею обо всем этом беспорядке, я действительно не ожидал всех этих ответов. Я новичок, и я сделал эту ошибку, поэтому я надеюсь, что вы можете "простить" меня. Во всяком случае, я думаю, что это должно указывать мне, что я должен был использовать более объяснительные переменные. Спасибо всем!

— Луиджи

3

Предлагаемые ответы дают мне некоторые идеи о том, что здесь происходит. Я верю, что, возможно, были допущены некоторые ошибки случайно. Посмотрите, имеет ли смысл следующая история: Для начала, я думаю, что, вероятно, существует сильная связь между X & Y в данных (вот некоторый код и сюжет):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

введите описание изображения здесь

Но по ошибке Y был предсказан только из среднего. Сложив это, остатки от средней только модели строятся на графике против X, даже при том, что предполагалось построить график с использованием соответствующих значений (код и график):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

введите описание изображения здесь

Мы можем исправить это, подбирая подходящую модель и вычерчивая на ней остатки (код и график):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

введите описание изображения здесь

Это похоже на те глупости, которые я сделал, когда начинал.

— Gung - Восстановить Монику
источник

0

Этот график показывает, что выбранная вами модель не подходит. Как @gung сказал в первых комментариях по основному вопросу, что не должно быть никакой связи между предсказанным ответом и остаточным.

«Аналитик должен ожидать, что регрессионная модель ошибается в прогнозировании ответа случайным образом; модель должна прогнозировать значения выше фактического и ниже фактического с равной вероятностью. Смотрите это »

Я бы порекомендовал первый сюжетный ответ против независимой переменной, чтобы увидеть связь между ними. Возможно, было бы разумно добавить полиномиальные члены в модель.

— Биостат
источник

0

Разве это не то, что происходит, если нет никакой связи между переменной X & Y? Из этого графика видно, что вы, по сути, предсказывает Y со средним значением.

— Адам
источник

0

Я думаю, что OP построил график остатков в сравнении с исходной переменной ответа (а не с адаптированной переменной ответа из модели). Я вижу такие графики постоянно, с почти одинаковым рисунком. Удостоверьтесь, что вы вычерчиваете невязки по сравнению с подгоночными значениями, поскольку я не уверен, какой значимый вывод вы могли бы извлечь из остатков по сравнению с исходным Y. Но я, безусловно, могу ошибаться.

— Тодай
источник