Интервал прогнозирования линейной регрессии


24

Если наилучшим линейным приближением (с использованием наименьших квадратов) моих точек данных является линия y=mx+b , как я могу рассчитать ошибку аппроксимации? Если я вычислю стандартное отклонение различий между наблюдениями и предсказаниями , могу ли я потом сказать, что действительное (но не наблюдаемое) значение принадлежит интервалу ( ) с вероятностью ~ 68%, предполагая нормальное распределение?ei=real(xi)(mxi+b)yr=real(x0)[ypσ,yp+σ]yp=mx0+b

Чтобы уточнить:

Я сделал замечания относительно функции , оценив ее по некоторым точкам . Я подгоняю эти наблюдения к линии . Для который я не наблюдал, я хотел бы знать, насколько большим может быть . Используя метод выше, правильно ли сказать, что с prob. ~ 68%?f(x)xil(x)=mx+bx0f(x0)l(x0)f(x0)[l(x0)σ,l(x0)+σ]


1
Я думаю, что вы спрашиваете об интервалах прогнозирования. Однако обратите внимание, что вы используете « » вместо « ». Это опечатка? Мы не предсказываем с. y i xxiyix
gung - Восстановить Монику

@gung: я использую чтобы обозначить, например, время, а значение некоторой переменной в то время, поэтому означает, что я сделал наблюдение в моментy y = f ( x ) y xxyy=f(x)yx . Я хочу знать, насколько далеко могут быть предсказания подходящей функции от реальных значений y. Имеет ли это смысл? Функция real(xi) возвращает «правильное» значение y в xi , а мои точки данных состоят из (xi,real(xi)),
BMX

1
Это кажется вполне разумным. Части, на которых я сосредотачиваюсь, например, « », обычно мы думаем об ошибках / остатках в модели reg как « e i = y i - ( m x i + b ) ". SD из остатков делает играть определенную роль в вычислении интервалов прогнозирования. Это что " х яei=real(xi)(mxi+b)ei=yi(mxi+b)xi"Это странно для меня; мне интересно, если это опечатка, или вы спрашиваете о чем-то, что я не узнаю.
gung - Восстановить Монику

Я думаю, что я вижу; Я пропустил ваше редактирование. Это говорит о том, что система полностью детерминированная и если вы имели доступ к реальной базовой функции, вы всегда можете предсказать , совершенно без ошибок. Мы обычно не думаем о моделях reg. yi
gung - Восстановить Монику

4
BMX, мне кажется, у вас есть четкое представление о вашем вопросе и хорошее понимание некоторых проблем. Возможно, вам будет интересно ознакомиться с тремя тесно связанными темами. stats.stackexchange.com/questions/17773 описывает интервалы прогнозирования в нетехнических терминах; stats.stackexchange.com/questions/26702 дает более математическое описание; и в stats.stackexchange.com/questions/9131 Роб Хиндман предлагает формулу, которую вы ищете. Если они не полностью отвечают на ваш вопрос, по крайней мере, они могут дать вам стандартную запись и словарь для его уточнения.
whuber

Ответы:


30

@whuber указал вам на три хороших ответа, но, возможно, я все еще могу написать что-то ценное. Ваш явный вопрос, насколько я понимаю, таков:

Учитывая мою подогнанную модель, y^i=m^xi+b^ (уведомление я добавил «шляпы»),и предполагаячто мои остатки нормально распределен,, можно предсказатьчто еще незаметный ответ,упеш, с известным значением предсказателя,хпхш, будет падатьпределах интервала( у -σе, у +σN(0,σ^e2)ynewxnew с вероятностью 68%?(y^σe,y^+σe)

Интуитивно понятно, что ответ должен быть «да», но верный ответ может быть . Это будет случай, когда параметры (т.е. & σ ) известны и без ошибок. Поскольку вы оценили эти параметры, мы должны принять во внимание их неопределенность. m,b,σ

Давайте сначала подумаем о стандартном отклонении ваших остатков. Поскольку это оценивается по вашим данным, в оценке может быть некоторая ошибка. В результате распределение, которое вы должны использовать, чтобы сформировать интервал прогнозирования, должно быть , а не нормальным. Однако, поскольку t быстро сходится к норме, на практике это менее вероятно. tdf errort

Таким образом, мы можем использовать только у нового ± т ( 1 - α / 2 , ДФ ошибки ) s , вместо у нового ± г ( 1 - α / 2 ) S , и идти о нашем веселом пути? К сожалению нет. Большая проблема в том , что существует неопределенность в отношении вашей оценки условного среднего отклика в этом месте из - за неопределенности в ваши оценки т и б . Таким образом,y^new±t(1α/2, df error)sy^new±z(1α/2)sm^b^стандартное отклонение ваших прогнозов должно включать в себя больше , чем просто serror . Из - за отклонения добавить , оцененная дисперсия предсказаний будет: Обратите внимание , что « х » является индексируются для представления значения , специфичного для нового наблюдение, и что " s 2 " соответственно подписан. То есть ваш интервал прогнозирования зависит от местоположения нового наблюдения вдоль х

spredictions(new)2=serror2+Var(m^xnew+b^)
xs2xось. Стандартное отклонение ваших прогнозов может быть более удобно оценено по следующей формуле: В качестве интересного примечания можно сделать несколько фактов об интервалах прогнозирования из этого уравнения. Во- первых, интервалы предсказания будутузкими, чем больше данныхмы имеликогда мы построили модель прогнозирования (это потомучто там меньше неопределенность вмиб). Во-вторых, прогнозы будут наиболее точными, если они будут сделаны на основе среднихзначенийx, которыевы использовали для разработки своей модели, поскольку числитель для третьего члена будет равен0. Причина в том, что при нормальных обстоятельствах нет никакой неопределенности в отношении предполагаемого наклона при среднем значенииx
spredictions(new)=serror2(1+1N+(xnewx¯)2(xix¯)2)
m^b^x0x, только некоторая неопределенность относительно истинного вертикального положения линии регрессии. Таким образом, некоторые уроки, которые необходимо извлечь для построения моделей прогнозирования, заключаются в том, что больше данных полезно не для определения «значимости», а для повышения точности будущих прогнозов; и что вы должны сосредоточить свои усилия по сбору данных на интервале, в котором вам нужно будет делать прогнозы в будущем (чтобы минимизировать этот числитель), но распределять наблюдения настолько широко, насколько это возможно (чтобы максимизировать этот знаменатель).

Вычислив правильное значение таким образом, мы можем затем использовать его с соответствующим распределением как отмечено выше. t

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.