@whuber указал вам на три хороших ответа, но, возможно, я все еще могу написать что-то ценное. Ваш явный вопрос, насколько я понимаю, таков:
Учитывая мою подогнанную модель, y^i=m^xi+b^ (уведомление я добавил «шляпы»),и предполагаячто мои остатки нормально распределен,, можно предсказатьчто еще незаметный ответ,упеш, с известным значением предсказателя,хпхш, будет падатьпределах интервала( у -σе, у +σN(0,σ^2e)ynewxnew с вероятностью 68%?(y^−σe,y^+σe)
Интуитивно понятно, что ответ должен быть «да», но верный ответ может быть . Это будет случай, когда параметры (т.е. & σ ) известны и без ошибок. Поскольку вы оценили эти параметры, мы должны принять во внимание их неопределенность. m,b,σ
Давайте сначала подумаем о стандартном отклонении ваших остатков. Поскольку это оценивается по вашим данным, в оценке может быть некоторая ошибка. В результате распределение, которое вы должны использовать, чтобы сформировать интервал прогнозирования, должно быть , а не нормальным. Однако, поскольку t быстро сходится к норме, на практике это менее вероятно. tdf errort
Таким образом, мы можем использовать только у нового ± т ( 1 - α / 2 , ДФ ошибки ) s , вместо у нового ± г ( 1 - α / 2 ) S , и идти о нашем веселом пути? К сожалению нет. Большая проблема в том , что существует неопределенность в отношении вашей оценки условного среднего отклика в этом месте из - за неопределенности в ваши оценки т и б . Таким образом,y^new±t(1−α/2, df error)sy^new±z(1−α/2)sm^b^стандартное отклонение ваших прогнозов должно включать в себя больше , чем просто serror . Из - за отклонения добавить , оцененная дисперсия предсказаний будет:
Обратите внимание , что « х » является индексируются для представления значения , специфичного для нового наблюдение, и что " s 2 " соответственно подписан. То есть ваш интервал прогнозирования зависит от местоположения нового наблюдения вдоль х
s2predictions(new)=s2error+Var(m^xnew+b^)
xs2xось. Стандартное отклонение ваших прогнозов может быть более удобно оценено по следующей формуле:
В качестве интересного примечания можно сделать несколько фактов об интервалах прогнозирования из этого уравнения. Во- первых, интервалы предсказания будутузкими, чем больше данныхмы имеликогда мы построили модель прогнозирования (это потомучто там меньше неопределенность в
ми
б). Во-вторых, прогнозы будут наиболее точными, если они будут сделаны на основе среднихзначений
x, которыевы использовали для разработки своей модели, поскольку числитель для третьего члена будет равен
0. Причина в том, что при нормальных обстоятельствах нет никакой неопределенности в отношении предполагаемого наклона при среднем значении
xspredictions(new)=s2error(1+1N+(xnew−x¯)2∑(xi−x¯)2)−−−−−−−−−−−−−−−−−−−−−−−−√
m^b^x0x, только некоторая неопределенность относительно истинного вертикального положения линии регрессии. Таким образом, некоторые уроки, которые необходимо извлечь для построения моделей прогнозирования, заключаются в том, что больше данных полезно не для определения «значимости», а для повышения точности будущих прогнозов; и что вы должны сосредоточить свои усилия по сбору данных на интервале, в котором вам нужно будет делать прогнозы в будущем (чтобы минимизировать этот числитель), но распределять наблюдения настолько широко, насколько это возможно (чтобы максимизировать этот знаменатель).
Вычислив правильное значение таким образом, мы можем затем использовать его с соответствующим распределением как отмечено выше. t