Ответы:
Предположим , у вас есть данные , где ч ∈ { 1 , 2 , ... } , и ваша цель состоит в том, чтобы построить модель (скажем, е ( Х т - ч ) ) для прогнозирования Y t с учетом X t - h . Для конкретности предположим, что данные являются ежедневными, а T соответствует сегодняшнему дню.
Под анализом выборки подразумевается оценка модели с использованием всех доступных данных до включительно , а затем сравнение подгоночных значений модели с фактическими реализациями. Однако известно, что эта процедура рисует чрезмерно оптимистичную картину способности прогнозирования модели, поскольку общие алгоритмы подбора (например, с использованием квадратов ошибок или критериев вероятности), как правило, стараются избежать больших ошибок прогнозирования и, таким образом, подвержены переобучению - ошибочному шуму. для сигнала в данных.
Обратите внимание, что псевдо-анализ вне выборки не единственный способ оценить производительность модели вне выборки. Альтернативы включают перекрестную проверку и информационные критерии.
Очень хорошее обсуждение всех этих вопросов приводится в главе 7
http://www.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf