В чем разница между оценкой и прогнозом?


46

Например, у меня есть данные о прошлых потерях, и я рассчитываю экстремальные квантили (величина риска или вероятная максимальная потеря). Полученные результаты предназначены для оценки потерь или их прогнозирования? Где можно провести черту? Я смущен.


4
Тесно связанным является обсуждение разницы между доверительными интервалами и интервалами прогнозирования на stats.stackexchange.com/questions/16493 .
whuber

Ответы:


65

«Предсказание» и «оценка» действительно иногда взаимозаменяемо используются в нетехнических письмах, и они, похоже, функционируют аналогично, но между ними есть четкое различие в стандартной модели статистической проблемы. An оценили данные используют угадать параметр в то время как предиктор использует данные угадать в каком - то случайном значении , которое не является частью набора данных. Для тех, кто не знает, что означает «параметр» и «случайное значение» в статистике, ниже приводится подробное объяснение.

В этой стандартной модели предполагается, что данные составляют (возможно, многомерное) наблюдение случайной величины , распределение которой, как известно, находится только в пределах определенного набора возможных распределений, «состояний природы». Оценка представляет собой математическую процедуру , которая присваивает каждому возможному значению некоторой собственности состояния природы , такие как его средних . Таким образом , оценка - это предположение об истинном состоянии природы. Мы можем сказать, насколько хороша оценка, сравнивая с . X t x t ( x ) θ μ ( θ ) t ( x ) μ ( θ )xX txt(x)θμ(θ)t(x)μ(θ)

Предиктор относится к независимому наблюдению другого случайной величины , распределение которой имеет отношение к истинному состоянию природы. Прогноз - это предположение о другом случайном значении. Мы можем сказать , насколько хорошо конкретный прогноз только путем сравнения до значения , реализуемого . Мы надеемся, что в среднем соглашение будет хорошим (в смысле усреднения по всем возможным результатам и одновременно по всем возможным значениям ).Z p ( x ) Z x Zp(x)Zp(x)Zx Z

Обычные наименьшие квадраты дают стандартный пример. Данные состоят из пар связывающих значения зависимой переменной со значениями независимой переменной. Состояние природы определяется тремя параметрами , и : в нем говорится, что каждый подобен независимому отрисовке из нормального распределения со средним значением и стандартным отклонением . , и - это параметры (числа), которые считаются фиксированными и неизменными. Интерес сосредоточен нау я х я & alpha ; & beta ; сг у я & alpha ; + & beta ; х я сг & alpha ; & beta ; сг & alpha ; & beta ; ( & alpha ; , & beta ; ) & alpha ; & alpha ; & beta ; & beta ; & alpha ; & beta ;(xi,yi)yixiαβσyiα+βxiσαβσα (перехват) и (наклон). МНК оценки, написанный , хорошо в том смысле , что стремится быть ближе к и , как правило, близко к , независимо от того, какими могут быть истинные (но неизвестные) значения и .β(α^,β^)α^αβ^βαβ

Прогноз OLS состоит из наблюдения нового значения зависимой переменной, связанной с некоторым значением независимой переменной. может или не может быть среди в наборе данных; это несущественно. Одно интуитивно хорошее предсказание заключается в том, что это новое значение, вероятно, будет близко к . Лучшие прогнозы говорят, насколько близко может быть новое значение (они называются интервалами прогнозирования ). Они объясняют тот факт, что и являются неопределенными (потому что они математически зависят от случайных значенийх х х я & alpha ; + & beta ; х & alpha ; & beta ; ( у я ) сг У ( х ) сг & alpha ; + & beta ; хZ=Y(x)xxxiα^+β^xα^β^(yi) ), что точно не известно (и поэтому должно быть оценено), а также предположение, что имеет нормальное распределение со стандартным отклонением и средним значением ( обратите внимание на отсутствие каких-либо шляп!).σY(x)σα+βx

Особо отметим, что этот прогноз имеет два отдельных источника неопределенности: неопределенность в данных приводит к неопределенности в оценочном наклоне, пересечении и остаточном стандартном отклонении ( ); Кроме того, существует неопределенность в отношении того, какое значение будет иметь место. Эта дополнительная неопределенность - поскольку является случайной - характеризует предсказания. Прогноз может выглядеть как оценка (в конце концов, оценки :-) и может даже иметь ту же математическую формулу ( иногда может совпадать с(xi,yi)σY(x)Y(x)α^+β^x α+βxp(x)t(x)), но это будет сопровождаться большей неопределенностью, чем оценка.

Здесь, тогда, в примере OLS, мы ясно видим различие: оценка угадывает параметры (которые являются фиксированными, но неизвестными числами), в то время как предсказание угадывает значение случайной величины. Источником потенциальной путаницы является то, что прогноз обычно основывается на оценочных параметрах и может даже иметь ту же формулу, что и оценщик.

На практике вы можете отличить оценки от предикторов двумя способами:

  1. цель : оценщик стремится узнать свойство истинного состояния природы, а прогноз - угадать результат случайной величины; а также

  2. неопределенность : предсказатель обычно имеет большую неопределенность, чем связанная оценка, из-за дополнительной неопределенности в результате этой случайной переменной. Поэтому хорошо документированные и описанные предикторы обычно имеют полосы неопределенности - интервалы прогнозирования - которые шире полос неопределенности оценок, известных как доверительные интервалы. Характерной особенностью интервалов прогнозирования является то, что они могут (гипотетически) сокращаться по мере роста набора данных, но они не будут уменьшаться до нулевой ширины - неопределенность в случайном результате является «несводимой», тогда как ширина доверительных интервалов будет иметь тенденцию к уменьшению уменьшить до нуля, что соответствует нашей интуиции, что точность оценки может стать сколь угодно хорошей с достаточным количеством данных.

При применении этого для оценки потенциальной потери инвестиций, рассмотрим сначала цель: вы хотите знать , сколько вы могли бы на самом деле потерять на этой инвестиции (или этой конкретной корзины инвестиций) в течение определенного периода, или вы действительно просто угадать , что это ожидаемая потеря (возможно, из-за большого количества инвестиций)? Первый - это прогноз, второй - оценка. Тогда рассмотрите неопределенность. Как изменится ваш ответ, если у вас будет почти бесконечное количество ресурсов для сбора данных и анализа? Если это станет очень точным, вы, вероятно, оцените ожидаемую отдачу от инвестиций, в то время как если вы не уверены в своем ответе, вы делаете прогноз.

Таким образом, если вы все еще не уверены, с каким животным вы имеете дело, спросите об этом своего оценщика / предиктора: насколько он ошибочен и почему? С помощью обоих критериев (1) и (2) вы будете знать, что у вас есть.


Очень интересный ответ! Можете ли вы дать нам некоторые отзывы об этом?
user1420303

2
@ user1420303 Вот два. (1) Кифер, Введение в статистический вывод (1987), с. 30. (« Проблема прогнозирования - это проблема, в которой решение представляет собой предположение не о некотором свойстве , а скорее о некотором свойстве случайной величины ...».) (2) Hahn & Meeker, Статистические интервалы (1991) , Смотрите раздел 2.3 для примеров и интерпретаций. F
whuber

+1. Я наткнулся на ваш ответ, потому что я пытаюсь понять терминологическое различие между СИНИМ и СИНИМ в смешанных моделях, и я все еще не уверен, что понял. В случае смешанной модели , где случайные перехватывает , мы оцениваем и . Тогда мы можем предсказать . Эту разницу я понимаю. Но как насчет ? Они вычисляются с помощью BLU P , то есть с «предиктором»; но мне кажется , что с любая неопределенность исчезает, поэтому мы не должны говорить , что будут оцененыu iN ( 0 , σ 2 u ) α , β , σ , σ u y u i n u iy=α+βx+ui+ϵuiN(0,σu2) α,β,σ,σu yuinui?
говорит амеба, восстанови Монику

2
@amoeba Может быть полезно понять эту ситуацию как иерархическую модель: на одном уровне иерархии является случайным (так что утверждения об этом были бы предикторами ), в то время как на более позднем уровне это было реализовано, и последующая оценка зависит от реализации (делаю заявления об этом оценщикам ). ui
whuber

2
@whuber Наиболее важный момент, который вы указали, заключается в том, что оценщики всегда нацелены на аппроксимацию величины с нестохастическим / неслучайным характером, подобным параметрам в модели SLR; Предикторы всегда нацелены на аппроксимацию величины со стохастической / случайной природой, такой как переменная ответа (включая термин ошибки) в модели SLR. Этот момент подчеркивается в ранних работах Рао.
Henry.L

8

Оценка всегда для неизвестного параметра, тогда как прогноз для случайной величины.


5
Вы прогнозируете реализацию случайной величины, в то время как вы оцениваете параметр случайной величины (например, ее ожидаемое значение).
Ричард Харди

@CowboyTrader, я недостаточно знаю об оценке плотности ядра, чтобы прокомментировать вашу заявку.
Ричард Харди

2

В моделях разницы нет. В действии действительно есть (небольшая) разница. Оценка - это калибровка вашей вероятностной модели с использованием данных («обучение» в терминологии ИИ). Предсказание - это «угадывание» будущего наблюдения. Предполагая, что это «предположение» основано на прошлых данных - это может быть случай оценки; например, прогноз роста следующего человека, с которым вы собираетесь встретиться, используя оценку среднего роста в популяции. Обратите внимание, что этот прогноз не всегда является примером оценки. Пол следующего человека, с которым вы собираетесь встретиться, не является параметром населения в классическом смысле; Прогнозирование пола может потребовать некоторой оценки, но это потребует еще ...

В случае значения риска, прогноз и оценка совпадают, так как ваша прогнозируемая потеря - это предполагаемая ожидаемая потеря.


2
Вы начинаете хорошо с правильного различия между оценкой и предсказанием, но затем последние две трети ответа, кажется, снова смешивают предсказание с оценкой. Представление примера пола становится еще более запутанным, поскольку оно не связано с первоначальным различием (фактически оно бессмысленно, поскольку в основе его лежит сдвиг статистической модели между этапом оценки и прогнозирования).
whuber

0

Прогнозирование - это использование выборочной функции регрессии для оценки значения для зависимой переменной, обусловленной некоторыми ненаблюдаемыми значениями независимой переменной.

Оценка - это процесс или методика расчета неизвестного параметра или количества населения.


3
Краткость похвальна, но здесь это может привести к путанице. Прогнозирование не ограничивается регрессионными приложениями: оно настолько же общее, как и оценка. Независимо от того, что именно вы подразумеваете под "обусловленными некоторыми ненаблюдаемыми значениями независимой переменной"? Это просто способ сказать, что для предсказания нужны данные? Если да, то как насчет оценки, к которой вы не предъявляете такое требование? Ваше описание делает его похожим на упражнение из учебника, например, "каково среднее значение нормального распределения, SD которого равно а верхний квартиль равен ?" Нужны ли данные для оценки или нет? 212
whuber

0

Обычно «оценка» зарезервирована для параметров, а «прогноз» - для значений. Однако иногда различия стираются, например, вы могли видеть что-то вроде «оцените значение завтра» вместо «прогнозировать значение завтра».

Значение риска (VaR) является интересным случаем. VaR не является параметром, но мы не говорим «предсказать VaR». Мы говорим «оцените VaR». Почему?

Причина в том, что VaR не является случайной величиной, ЕСЛИ вам известно распределение, И вам нужно знать распределение для расчета VaR. Итак, если вы используете параметрический подход VaR, то сначала вы оцениваете параметры распределения, а затем вычисляете VaR. Если вы используете непараметрический VaR, то вы напрямую оцениваете VaR подобно тому, как вы будете оценивать параметры. В этом отношении он похож на квантиль.

С другой стороны, сумма потерь является случайной величиной. Следовательно, если вас попросят прогнозировать потери, вы будете прогнозировать, что они не оценивают. Опять же, иногда мы говорим «оценить» потери. Итак, линия размыта, как я писал ранее.


Вы говорите, что VaR не является параметром, но мне интересно, так ли это на самом деле. VaR - это (условный или безусловный) квантиль распределения зависимой переменной. Как таковой он выглядит как параметр распределения для меня или, по крайней мере, как функция некоторых других, более фундаментальных параметров, которые, похоже, не меняют сути. Это не похоже на реализацию случайной величины.
Ричард Харди

Кроме того, когда вы говорите, что прогноз для значений, он применяется к значениям параметров так же, как и к реализации случайных переменных (которые также являются значениями). Следовательно, я предлагаю заменить значения реализацией случайных величин; тогда у вас будет дихотомия, к которой вы стремитесь.
Ричард Харди

-3

Я нахожу ниже определения более объяснительными:

Оценка - это расчетное приближение результата. Этот результат может быть прогнозом, но не обязательно. Например, я могу оценить, что количество автомобилей на мосту Золотые Ворота в 17:00 вчера было 900, если предположить, что три полосы, идущие в направлении Марина, были загружены, каждая машина занимает 30 футов пространства, а длина моста составляет 9000 футов ( 9000/30 х 3 = 900).

Экстраполяция оценивает значение переменной вне известного диапазона значений, предполагая, что оценочное значение следует некоторому шаблону из известных. Самая простая и популярная форма экстраполяции - это оценка линейного тренда на основе известных данных. Альтернативы линейной экстраполяции включают полиномиальную и коническую экстраполяцию. Как и оценка, экстраполяция может использоваться для прогнозирования, но она не ограничивается прогнозированием.

Прогноз просто говорит что-то о будущем. Прогнозы обычно сосредоточены на результатах, а не на пути к этим результатам. Например, я мог бы предсказать, что к 2050 году все транспортные средства будут оснащены электрическими двигателями, без объяснения того, как мы перейдем от низкого уровня принятия в 2011 году до полного внедрения в 2050 году. Как вы можете видеть из предыдущего примера, прогнозы не обязательно основаны на данных.

Прогнозирование - это процесс составления прогноза или прогноза. Термины прогноз и прогноз часто используются взаимозаменяемо, но иногда прогнозы отличаются от прогнозов тем, что прогнозы часто предоставляют объяснения путей к результату. Например, прогноз принятия электромобиля может включать путь к полному внедрению электромобиля в соответствии с S-образным шаблоном принятия, когда до 2025 года лишь немногие автомобили являются электрическими, точка перегиба возникает в 2030 году с быстрым внедрением, а большинство автомобилей становятся электрическими после 2040.

Оценка, экстраполяция, прогнозирование и прогнозирование не являются взаимно исчерпывающими и в совокупности исчерпывающими терминами. Хорошие долгосрочные прогнозы для сложных проблем часто должны использовать методы, отличные от экстраполяции, чтобы получить правдоподобные результаты. Прогнозы и прогнозы также могут выполняться без каких-либо расчетных оценок.

см. ссылки определения1 определения2


2
Прогнозирование не обязательно должно быть о будущем.
Миура

Прочитайте это полностью: Предсказание просто говорит кое-что о будущем. Прогнозы обычно сосредоточены на результатах, а не на пути к этим результатам.
SSO

Да, но результаты не должны быть в будущем. Вы можете, например, также предсказать прошлые неизвестные результаты.
Миура

1
Это разумное объяснение того, как слова «оценка» и «прогноз» используются в нетехническом, нестатистическом смысле. Как предполагает @miura, из других ответов здесь очевидно, что эти разговорные значения отличаются от общепринятых статистических. Я вижу веский аргумент в пользу интерпретации исходного вопроса нестатистическим способом. Однако такое толкование вводит неудобное и ненужное ограничение, поскольку не позволяет применять «прогноз» к прошлым (завершенным) событиям с неизвестными результатами.
whuber

Если вы примените его к прошлому, например, фильтру Калмана с минимальной дисперсией, и сглаживатель с минимальной дисперсией может быть использован для восстановления данных, представляющих интерес, из зашумленных измерений. В выше-упомянутые методы опираются на один шаг вперед-предсказателей ... так, до сих пор прогноз на один шаг вперед (в будущее) :)
SSO
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.