В чем разница между прогнозами «в выборке» и «вне выборки»?


17

Я не понимаю, в чем именно заключается разница между прогнозированием "в выборке" и "вне выборки"? Прогноз в выборке использует подмножество доступных данных для прогнозирования значений за пределами периода оценки. Вместо этого в прогнозном прогнозе используются все доступные данные. Верны ли они ?

Очень конкретно правильное следующее определение?

Внутри выборочного прогноза используется подмножество доступных данных для прогнозирования значений за пределами периода оценки и сравнения их с соответствующими известными или фактическими результатами. Это делается для оценки способности модели прогнозировать известные значения. Например, в рамках выборочного прогноза с 1980 по 2015 год для оценки модели могут использоваться данные с 1980 по 2012 год. Используя эту модель, прогнозист затем прогнозирует значения на 2013-2015 гг. И сравнивает прогнозные значения с фактическими известными значениями. Прогноз вне выборки вместо этого использует все доступные данные в выборке для оценки моделей. Для предыдущего примера оценка будет выполнена в течение 1980-2015 годов, а прогноз (ы) начнется в 2016 году.


Не могли бы вы предоставить некоторый контекст? Ответы, которые вы предоставляете на свой вопрос, кажутся нормальными, но терминология может быть предметной.
IWS

Откуда вы взяли эти определения?
gung - Восстановить Монику

In-sample - это данные, которые вы знаете во время создания модели и которые вы используете для построения этой модели. Вне выборки - данные, которые не были видны, и вы создаете прогноз / прогноз только один. В большинстве случаев модель будет работать хуже вне образца, чем внутри образца, где все параметры были откалиброваны.
Рик

@IWS Я добавил специальный вопрос :)
Engin YILMAZ

@Richard Пожалуйста, прочитайте новый специальный вопрос ...
Энгин YILMAZ

Ответы:


32

Под «образцом» подразумевается образец данных, который вы используете для соответствия модели.

Первое - у вас есть выборка
Второе - вы подходите к модели по образцу
Третье - вы можете использовать модель для прогнозирования

Если вы прогнозируете наблюдение, которое было частью выборки данных - это прогноз в выборке.

Если вы прогнозируете наблюдение, которое не было частью выборки данных - это прогноз вне выборки.

Итак, вопрос, который вы должны задать себе: было ли конкретное наблюдение использовано для подгонки модели или нет? Если он использовался для подгонки модели, то прогноз наблюдения является выборочным. В противном случае это вне образца.

если вы используете данные 1990-2013 для подгонки к модели, а затем прогнозируете на 2011-2013 годы, это прогноз в выборке. но если вы используете 1990-2010 годы только для подгонки модели, а затем прогнозируете 2011-2013 годы, то это прогноз вне выборки.


У нас есть выборка с 1990 по 2013 год, затем мы подгоняем модель к выборке, затем прогнозируем 2011-2013 годы, это в выборке? или У нас есть выборка с 1990 по 2013 год, затем мы подгоняем модель с 1990 по 2010 год по выборке, мы прогнозируем 2011-2013 годы, это вне выборки?
Engin YILMAZ

да, если вы используете данные 1990-2013 для подгонки модели, а затем прогнозируете на 2011-2013 годы, это прогноз в выборке. но если вы используете 1990-2010 годы только для подгонки модели, а затем прогнозируете 2011-2013 годы, то это прогноз вне выборки.
Лошадь царя Соломона

3

Предположим, в вашем примере у вас есть последовательность из 10 точек данных. Эти данные можно разделить на две части - например, первые 7 точек данных для оценки параметров модели и следующие 3 точки данных для проверки производительности модели. Используя подобранную модель, прогнозы, сделанные для первых 7 точек данных, будут называться прогнозом в выборке, и те же самые для последних 3 точек данных будут вызываться из прогноза выборки. Это то же самое, что идея разделения данных на обучающий набор и проверочный набор.


1

Прогноз в рамках выборки - это процесс формальной оценки прогнозирующих возможностей моделей, разработанных с использованием данных наблюдений, чтобы увидеть, насколько эффективны алгоритмы при воспроизведении данных. Это похоже на обучающий набор в алгоритме машинного обучения, а выборка аналогична тестовому набору.


Вы даете краткое объяснение прогнозирования в выборке - можете ли вы предоставить то же самое для вне выборки (т. е. краткое объяснение, а не просто сравнение с наборами тестов)?
ReneBt


-1

В прогнозировании временных рядов «выборка» означает данные о поездах, «выборка» означает данные испытаний.

Во временных рядах сначала мы можем спрогнозировать результаты для данных «выборки» (т. Е. Поезда). Позже мы можем прогнозировать результаты для «выборочных» (т.е. тестовых) данных.

model = ARIMA(order = (p,d,q), seasonal_order=(P,D,Q,S))
model.fit(train_data)

train_predictions = model.predict_in_sample()
test_predictions = model.predict(n_periods=len(test_data.index))

predictions = pd.concatenate((train_predictions, test_predictions),axis=0)

Я думаю, что ваш ответ обескураживает, потому что он не отвечает на вопрос - в частности, "Очень конкретно правильное следующее определение?" не адрес.
Мартин Модрак,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.