Для интервала прогнозирования в линейной регрессии вы все еще используете E [ Y | х ] = ^ & beta ; 0 + β 1 х генерировать интервал. Вы также используете это, чтобы сгенерировать доверительный интервал E [ Y | х 0 ] . В чем разница между двумя?
Для интервала прогнозирования в линейной регрессии вы все еще используете E [ Y | х ] = ^ & beta ; 0 + β 1 х генерировать интервал. Вы также используете это, чтобы сгенерировать доверительный интервал E [ Y | х 0 ] . В чем разница между двумя?
Ответы:
Разница между интервалом прогнозирования и доверительным интервалом является стандартной ошибкой.
Стандартная ошибка для доверительного интервала в среднем учитывает неопределенность, обусловленную выборкой. Линия, которую вы вычислили по вашей выборке, будет отличаться от линии, которая была бы рассчитана, если бы у вас было все население, стандартная ошибка учитывает эту неопределенность.
Стандартная ошибка для интервала прогнозирования для отдельного наблюдения учитывает неопределенность из-за выборки, как описано выше, но также учитывает изменчивость индивидуумов вокруг прогнозируемого среднего значения. Стандартная ошибка для интервала прогнозирования будет шире, чем для доверительного интервала, и, следовательно, интервал прогнозирования будет шире, чем доверительный интервал.
Я нашел следующее объяснение полезным:
Доверительные интервалы говорят о том, насколько хорошо вы определили среднее. Предположим, что данные действительно выбираются случайным образом из гауссовского распределения. Если вы делаете это много раз и рассчитываете доверительный интервал среднего значения для каждой выборки, вы ожидаете, что около 95% этих интервалов будут включать в себя истинное значение среднего значения по совокупности. Ключевым моментом является то, что доверительный интервал говорит вам о вероятном местоположении истинного параметра населения.
Интервалы прогнозирования сообщают вам, где можно ожидать выборки следующей точки данных. Предположим, что данные действительно выбираются случайным образом из гауссовского распределения. Соберите образец данных и рассчитайте интервал прогнозирования. Затем выберите еще одно значение из популяции. Если вы делаете это много раз, вы ожидаете, что следующее значение будет лежать в пределах этого интервала прогнозирования в 95% выборок. Ключевым моментом является то, что интервал прогнозирования говорит вам о распределении значений, а не о неопределенности при определении совокупности значит.
Интервалы прогнозирования должны учитывать как неопределенность в знании среднего значения для населения, так и разброс данных. Таким образом, интервал прогнозирования всегда шире, чем доверительный интервал.
Один - это прогноз будущего наблюдения, а другой - прогнозируемый средний ответ. Я дам более подробный ответ, чтобы, надеюсь, объяснить разницу и откуда она берется, а также как эта разница проявляется в более широких интервалах для прогноза, чем для уверенности.
Надеюсь, это немного прояснит, почему интервал прогнозирования всегда шире, и какова основная разница между этими двумя интервалами. Этот пример был адаптирован из Faraway, Linear Models with R, Sec. 4.1.
Краткий ответ:
Интервал прогнозирования представляет собой интервал , связанный со случайной переменной еще не наблюдается (прогнозирования).
Доверительный интервал представляет собой интервал , связанный с параметром и является частотной концепцией.
Проверьте полный ответ здесь от Роба Хиндмана, создателя пакета прогноза в R.
Этот ответ предназначен для тех читателей, которые не смогли полностью понять предыдущие ответы. Давайте обсудим конкретный пример. Предположим, вы пытаетесь предсказать вес людей по их росту, полу (мужской, женский) и рациону (стандартный, низкоуглеводный, вегетарианский). В настоящее время на Земле проживает более 8 миллиардов человек. Конечно, вы можете найти много тысяч людей, имеющих одинаковый рост и два других параметра, но разный вес. Их вес сильно отличается, потому что некоторые из них страдают ожирением, а другие могут страдать от голода. Большинство из этих людей будут где-то посередине.
Одна из задач состоит в прогнозировании среднего веса всех людей, имеющих одинаковые значения всех трех объясняющих переменных. Здесь мы используем доверительный интервал. Другая проблема заключается в прогнозировании веса какого-то конкретного человека. И мы не знаем жизненных обстоятельств этого человека. Здесь должен использоваться интервал прогнозирования. Он сосредоточен вокруг одной и той же точки, но он должен быть намного шире, чем доверительный интервал.