Можем ли мы сделать вероятностные утверждения с интервалами прогнозирования?


12

Я прочитал много отличных обсуждений на сайте относительно интерпретации доверительных интервалов и интервалов прогнозирования, но одна концепция все еще немного озадачивает:

Рассмотрим структуру OLS, и мы получили подходящую модель . Нам дали и попросили предсказать его ответ. Мы вычисляем и, в качестве бонуса, мы также предоставляем интервал прогнозирования 95% вокруг нашего прогноза, в виде получения формулы для пределов прогнозирования в линейной модели . Давайте назовем этот интервал прогнозирования PI.Y^знак равноИксβ^Икс*Икс*Tβ^

Теперь, что из следующего (или ни одного) является правильной интерпретацией PI?

  1. В частности, для лежит в пределах PI с вероятностью 95%.Икс*Y(Икс*)
  2. Если нам дадут большое количество s, эта процедура для вычисления PI будет покрывать истинные ответы в 95% случаев.Икс

Из формулировки @ gung в интервале прогнозирования линейной регрессии кажется, что первое верно (хотя я вполне мог бы неправильно истолковать его). Интерпретация 1 кажется мне нелогичной (в том смысле, что мы делаем байесовские выводы из частотного анализа), но если это правильно, это потому , что мы предсказывали на реализацию случайной величины VS. оценивающего с параметром ?

(Изменить) Бонусный вопрос: предположим, что мы знали, что такое истинная , то есть процесс, генерирующий данные, тогда сможем ли мы говорить о вероятностях в отношении какого-либо конкретного прогноза, поскольку мы просто смотрим на ?βε

Моя последняя попытка сделать это: мы можем «концептуально разложить» (используя слово очень свободно) интервал прогнозирования на две части: (A) доверительный интервал вокруг предсказанного среднего ответа и (B) набор интервалов, которые являются просто квантильными диапазоны погрешности. (B) мы можем делать вероятностные заявления, при условии, что мы знаем истинное прогнозируемое среднее, но в целом мы можем рассматривать интервалы прогнозирования как частые КИ вокруг прогнозируемых значений. Это несколько правильно?


Ответ, который я написал на stats.stackexchange.com/a/26704, подразумевает, что что-то вроде (2) имеет место (согласно законам больших чисел), но определенно нет (1).
whuber

Ответы:


5

Во-первых, при использовании слова «вероятность» у часто встречающихся не возникает проблем с использованием слова «вероятность» при прогнозировании чего-то, где случайный фрагмент еще не произошел. Нам не нравится слово вероятность для доверительного интервала, потому что истинный параметр не меняется (мы предполагаем, что это фиксированное, хотя и неизвестное) значение, а интервал фиксирован, потому что он основан на данных, которые мы уже собрали. Например, если наши данные взяты из случайной выборки взрослых людей мужского пола, а x - это их рост, а y - их вес, и мы подходим к общей модели регрессии, тогда мы не используем вероятность, когда говорим о доверительных интервалах. Но если я хочу поговорить о том, какова вероятность того, что мужчина ростом 65 дюймов будет выбран случайным образом из всех мужчин ростом 65 дюймов, имеющих вес в течение определенного интервала,

Поэтому я бы сказал, что ответом на бонусный вопрос является «Да». Если бы мы знали достаточно информации, то мы могли бы вычислить вероятность увидеть значение y в пределах интервала (или найти интервал с желаемой вероятностью).

Для вашего утверждения помечены «1». Я бы сказал, что это нормально, если вы используете слово «приблизительный», когда говорите об интервале или вероятности. Как вы упомянули в бонусном вопросе, мы можем разложить неопределенность на кусочек о центре предсказания и кусочек о случайности вокруг истинного среднего. Когда мы объединяем их, чтобы покрыть всю нашу неопределенность (и при условии, что у нас правильная модель / нормальность), у нас будет интервал, который будет иметь тенденцию быть слишком широким (хотя может быть и слишком узким), поэтому вероятность появления новой случайно выбранной точки попадание в интервал прогнозирования не будет точно 95%. Вы можете увидеть это с помощью симуляции. Начните с известной регрессионной модели со всеми известными параметрами. Выберите образец (по многим значениям x) из этого отношения, поместите регрессию, и вычислить интервал (ы) прогнозирования. Теперь снова сгенерируйте большое количество новых точек данных из истинной модели и сравните их с интервалами прогнозирования. Я сделал это несколько раз, используя следующий код R:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

Я запускал приведенный выше код несколько раз (около 10, но я не вел тщательный подсчет), и большую часть времени доля новых значений, попадающих в интервалы, находилась в диапазоне от 96% до 98%. У меня был один случай, когда предполагаемое стандартное отклонение было очень низким, когда пропорции были в диапазоне от 93% до 94%, но все остальные были выше 95%. Поэтому я был бы рад вашему заявлению 1 с изменением на «примерно 95%» (при условии, что все предположения верны или достаточно близки, чтобы их можно было охватить приблизительно).

Точно так же утверждение 2 нуждается в «приблизительно» или подобном, потому что для покрытия нашей неопределенности мы собираем в среднем более 95%.


0

Второе лучше. Первое зависит от того, какая другая информация известна.

Используя случайный пример, это правда, что «95% интервалов (с доверительной вероятностью 95%) будут включать в себя истинное среднее значение [insert variable]».

С другой стороны, если результат явно нелогичен, мы не можем утверждать (1).

Например, «мой тест значимости на 95% достоверности показывает, что рост и вес отрицательно коррелируют». Ну, это, очевидно, неверно, и мы не можем сказать, что существует «95% вероятность, что это правда». На самом деле, принимая во внимание предшествующее знание, очень малая вероятность того, что это правда. Это, однако, можно утверждать , что «95% таких тестов бы дали правильный результат.»


1
Этот ответ, кажется, обсуждает доверительные интервалы, а не интервалы прогнозирования.
uber

@whuber Тот же принцип применяется. По сути, мы имеем дело с доверительными интервалами для определенной переменной («прогнозируемой» переменной).

2
Существует важное различие между фиксированным значением (например, параметром) и значением случайной величины. Более того, суть настоящего вопроса заключается в этом различии: что можно сказать о вероятности этого («будущего») случайного исхода? Поэтому представляется неадекватным - и, возможно, вводящим в заблуждение - рассматривать этот вопрос как вопрос о значении доверия.
uber

@whuber Утверждение (2) в посте все еще не подразумевает утверждение (1). Как и в моем примере, прогноз, противоречащий очевидной интуиции / базовым знаниям, не подразумевает, что будущие результаты имеют 95% -ную вероятность падения в ИП. Это правда, что этот процесс в 95% случаев даст ИП, содержащие будущие результаты. Но иногда можно определить, когда это произошло или не произошло.

Вы правы, но если я правильно читаю ваш комментарий, я подозреваю, что он не соответствует сути. Проблема заключается не в том, что (по замыслу) ИП имеет только 95% -ную вероятность покрытия будущей ценности или того, что дополнительные данные (или интуиция) могут дать больше информации. Рассматриваемый нами вопрос касается возможности интерпретации PI с точки зрения условной вероятности для будущего значения (на основе значений регрессии). Это действительно интерпретация байесовского ИП, как отмечает ОП, но она недопустима для частого ИП.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.