Разница между доверительными интервалами и интервалами прогнозирования


80

Для интервала прогнозирования в линейной регрессии вы все еще используете E [ Y | х ] = ^ & beta ; 0 + β 1 х генерировать интервал. Вы также используете это, чтобы сгенерировать доверительный интервал E [ Y | х 0 ] . В чем разница между двумя?E^[Y|x]=β0^+β^1xE[Y|x0]


7
не "генерировать интервал". E^[Y|x]=β0^+β^1x
Glen_b

Я не вижу причины расхождения между этими двумя методами ни в одном из ответов выше. Результаты регрессии обычно оцениваются на основе параметрических t-параметров распределения Стьюдента и, как правило, регрессии, особенно от плохо согласованных с регрессионными моделями данных, приводящих к остаткам, которые не изучаются, например, искажены, но особенно с тяжелыми хвостами, которые обычно (если не всегда) создают Параметрические меры дисперсии данных больше, чем соответствующие им ожидаемые измеренные квантили. Эмпирическое правило, которое я нашел полезным: если я вижу остатки с выбросами, длинными хвостами и
Карл

Ответы:


75

E[yx]yyE[yx]xβ^

E[yx]yy

βE[yx]yE[yx]

Следовательно, интервал прогнозирования будет шире, чем доверительный интервал.


40

Разница между интервалом прогнозирования и доверительным интервалом является стандартной ошибкой.

Стандартная ошибка для доверительного интервала в среднем учитывает неопределенность, обусловленную выборкой. Линия, которую вы вычислили по вашей выборке, будет отличаться от линии, которая была бы рассчитана, если бы у вас было все население, стандартная ошибка учитывает эту неопределенность.

Стандартная ошибка для интервала прогнозирования для отдельного наблюдения учитывает неопределенность из-за выборки, как описано выше, но также учитывает изменчивость индивидуумов вокруг прогнозируемого среднего значения. Стандартная ошибка для интервала прогнозирования будет шире, чем для доверительного интервала, и, следовательно, интервал прогнозирования будет шире, чем доверительный интервал.


39

Я нашел следующее объяснение полезным:

Доверительные интервалы говорят о том, насколько хорошо вы определили среднее. Предположим, что данные действительно выбираются случайным образом из гауссовского распределения. Если вы делаете это много раз и рассчитываете доверительный интервал среднего значения для каждой выборки, вы ожидаете, что около 95% этих интервалов будут включать в себя истинное значение среднего значения по совокупности. Ключевым моментом является то, что доверительный интервал говорит вам о вероятном местоположении истинного параметра населения.

Интервалы прогнозирования сообщают вам, где можно ожидать выборки следующей точки данных. Предположим, что данные действительно выбираются случайным образом из гауссовского распределения. Соберите образец данных и рассчитайте интервал прогнозирования. Затем выберите еще одно значение из популяции. Если вы делаете это много раз, вы ожидаете, что следующее значение будет лежать в пределах этого интервала прогнозирования в 95% выборок. Ключевым моментом является то, что интервал прогнозирования говорит вам о распределении значений, а не о неопределенности при определении совокупности значит.

Интервалы прогнозирования должны учитывать как неопределенность в знании среднего значения для населения, так и разброс данных. Таким образом, интервал прогнозирования всегда шире, чем доверительный интервал.

Источник: http://www.graphpad.com/support/faqid/1506/


Какого черта здесь подразумевается под «разбросом данных»?
тел

2
@tel: Очевидно, дисперсия
vonjd

36

Один - это прогноз будущего наблюдения, а другой - прогнозируемый средний ответ. Я дам более подробный ответ, чтобы, надеюсь, объяснить разницу и откуда она берется, а также как эта разница проявляется в более широких интервалах для прогноза, чем для уверенности.

x0

  1. x0x0

    y=x0Tβ+ϵ
    E(ϵ)=0
    y^=x0Tβ^
    β^ϵ
  2. x0x0

    y^=x0Tβ^
    β^

var(x0Tβ^)=x0T(XTX)1x0σ2

x0Tβ^+ϵϵσ2β^

  1. x0

    y^0±tnp(α/2)σ^x0T(XTX)1x0+1
  2. x0

    y^0±tnp(α/2)σ^x0T(XTX)1x0

tnpα/2npα/2

Надеюсь, это немного прояснит, почему интервал прогнозирования всегда шире, и какова основная разница между этими двумя интервалами. Этот пример был адаптирован из Faraway, Linear Models with R, Sec. 4.1.


2
Приятно видеть, что старый поток значительно улучшен благодаря ясному и вдумчивому ответу. Добро пожаловать на наш сайт!
whuber

Не должно ли это быть ... x0 + 1 / n +1 (для интервала прогнозирования (1)) и ... x0 + 1 / n (для доверительного интервала (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/...
user48956

12

Краткий ответ:

Интервал прогнозирования представляет собой интервал , связанный со случайной переменной еще не наблюдается (прогнозирования).

Доверительный интервал представляет собой интервал , связанный с параметром и является частотной концепцией.

Проверьте полный ответ здесь от Роба Хиндмана, создателя пакета прогноза в R.


3

Этот ответ предназначен для тех читателей, которые не смогли полностью понять предыдущие ответы. Давайте обсудим конкретный пример. Предположим, вы пытаетесь предсказать вес людей по их росту, полу (мужской, женский) и рациону (стандартный, низкоуглеводный, вегетарианский). В настоящее время на Земле проживает более 8 миллиардов человек. Конечно, вы можете найти много тысяч людей, имеющих одинаковый рост и два других параметра, но разный вес. Их вес сильно отличается, потому что некоторые из них страдают ожирением, а другие могут страдать от голода. Большинство из этих людей будут где-то посередине.

Одна из задач состоит в прогнозировании среднего веса всех людей, имеющих одинаковые значения всех трех объясняющих переменных. Здесь мы используем доверительный интервал. Другая проблема заключается в прогнозировании веса какого-то конкретного человека. И мы не знаем жизненных обстоятельств этого человека. Здесь должен использоваться интервал прогнозирования. Он сосредоточен вокруг одной и той же точки, но он должен быть намного шире, чем доверительный интервал.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.