Итак, я пытаюсь понять линейную регрессию. У меня есть набор данных, и все выглядит хорошо, но я в замешательстве. Это моя линейная модель-сводка:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
Таким образом, значение p действительно низкое, что означает, что очень маловероятно, что корреляция между x, y будет случайно получена. Если я нарисую его, а затем нарисую линию регрессии, она будет выглядеть следующим образом: http://s14.directupload.net/images/120923/l83eellv.png (Если бы это было изображение, но я - как новый пользователь - в настоящее время нет разрешено публиковать) Синие линии = доверительный интервал Зеленые линии = интервал прогнозирования
Теперь многие пункты не попадают в доверительный интервал, почему это произошло? Я думаю, что ни одна из точек данных не попадает на линию регрессии, потому что они просто довольно далеко друг от друга, но в чем я не уверен: это реальная проблема? Они все еще находятся вокруг линии регрессии, и вы можете полностью увидеть паттерн. Но достаточно ли этого? Я пытаюсь понять это, но я продолжаю задавать себе одни и те же вопросы снова и снова.
О чем я думал до сих пор: доверительный интервал говорит о том, что если вы вычисляете CI снова и снова, в 95% случаев истинное среднее значение попадает в CI. Итак: Это не проблема, что ДП не попадают в него, так как это на самом деле не средство. Интервал прогнозирования, с другой стороны, говорит, что если вы рассчитываете ПИ снова и снова, в 95% случаев истинное ЗНАЧЕНИЕ попадает в интервал. Таким образом, очень важно иметь точки в нем (которые у меня есть). Тогда я прочитал, что PI всегда должен иметь более широкий диапазон, чем CI. Это почему? Вот что я сделал:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
и тогда я нанес это на карту:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
Теперь, если я рассчитываю CI и PI для дополнительных данных, не имеет значения, насколько широко я выбираю диапазон, я получаю те же строки, что и выше. Я не понимаю. Что это обозначает? Это будет тогда:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
для нового х я выбрал разные последовательности. Если последовательность имеет # количество наблюдений, отличных от переменных в моей регрессии, я получаю предупреждение. С чего бы это?