Сглаживание - когда его использовать, а когда нет?

В блоге Уильяма Бриггса есть довольно старая запись, в которой рассматриваются подводные камни сглаживания данных и передачи сглаженных данных в анализ. Ключевой аргумент, а именно:

Если в момент безумия вы сглаживаете данные временных рядов и используете их в качестве входных данных для других анализов, вы резко увеличиваете вероятность одурачить себя! Это потому, что сглаживание вызывает ложные сигналы - сигналы, которые выглядят реальными для других аналитических методов. Неважно, что вы будете слишком уверены в своих окончательных результатах!

Однако я изо всех сил пытаюсь найти исчерпывающие дискуссии о том, когда сглаживать, а когда нет.

Сглаживается ли это только при использовании этих сглаженных данных в качестве входных данных для другого анализа, или есть другие ситуации, когда сглаживание не рекомендуется? И наоборот, есть ли ситуации, когда рекомендуется сглаживание?

time-series smoothing

— NickB2014
источник

Большинство приложений анализа временных рядов являются своего рода сглаживанием, даже если они не описаны как таковые. Сглаживание можно использовать в качестве исследовательского или сводного устройства - в некоторых областях, которое даже является основным или единственным используемым методом, - или для удаления функций, которые для некоторой цели рассматриваются как неприятность или второстепенный интерес.

— Ник Кокс

Отказ от ответственности: я не прочитал весь цитируемый пост в блоге. Я не мог пройти мимо элементарных опечаток («временные ряды», «Монте-Кэрол»), и его тон и стиль не были привлекательными. Но я бы не советовал пытаться изучать принципы анализа временных рядов или статистики в целом через чей-либо блог.

— Ник Кокс

@NickCox Согласна, и особенно не от блога, у которого, кажется, есть топор, чтобы молоть.

— Хонг Оои

@HongOoi Да! Я удалил некоторые избранные фразы из черновика моего комментария, которые могли показаться не менее самоуверенными, чем сам блог.

— Ник Кокс

Я бы взял все, что пишет Бриггс, с крошкой соли.

— Момо

Ответы:

Экспоненциальное сглаживание - это классическая методика, используемая в прогнозировании временных рядов без причинно-следственных связей. Пока вы используете его только в прямом прогнозировании и не используете сглаженные выборки в качестве входных данных для другого анализа данных или статистического алгоритма, критика Бриггса неприменима. (Соответственно, я скептически отношусь к тому, чтобы использовать его «для получения сглаженных данных для представления», как говорит Википедия - это вполне может ввести в заблуждение, скрывая сглаженную изменчивость.)

Вот введение в учебник по экспоненциальному сглаживанию.

И вот (10-летняя, но все еще актуальная) обзорная статья.

РЕДАКТИРОВАТЬ: кажется, есть некоторые сомнения в обоснованности критики Бриггса, возможно, несколько под влиянием его упаковки . Я полностью согласен, что тон Бриггса может быть абразивным. Тем не менее, я хотел бы проиллюстрировать, почему я думаю, что он имеет смысл.

Ниже я моделирую 10000 пар временных рядов по 100 наблюдений в каждой. Все серии - белый шум, без какой-либо корреляции. Таким образом, выполнение стандартного корреляционного теста должно дать значения p, которые равномерно распределены по [0,1]. Как это происходит (гистограмма слева внизу).

Однако предположим, что мы сначала сглаживаем каждую серию и применяем корреляционный тест к сглаженным данным. Появляется нечто удивительное: так как мы удалили много изменчивости из данных, мы получаем значения p, которые слишком малы . Наш корреляционный тест сильно смещен. Таким образом, мы будем слишком уверены в любой связи между оригинальными сериями, о которой говорит Бриггс.

Вопрос в действительности заключается в том, используем ли мы сглаженные данные для прогнозирования, и в этом случае сглаживание является действительным, или же мы включаем его в качестве входных данных в некоторый аналитический алгоритм, и в этом случае удаление изменчивости будет имитировать более высокую достоверность в наших данных, чем это оправдано. Эта необоснованная уверенность во входных данных переносится в конечные результаты и должна быть учтена, в противном случае все выводы будут слишком точными. (И, конечно, мы также получим слишком малые интервалы прогнозирования, если будем использовать модель, основанную на «завышенной достоверности» для прогнозирования.)

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

значения р

— С. Коласса - Восстановить Монику
источник

Я бы посчитал аксиоматичным для хорошего анализа временных рядов, что сглаживание не показывается без показа необработанных данных.

— Ник Кокс

Утверждение о том, что сглаживание не подходит для анализа моделирования, обрекает его на наличие более высокой среднеквадратичной ошибки, чем могло бы быть в противном случае. Среднеквадратичную ошибку или MSE можно разложить на три члена: квадрат значения, называемого «смещением», дисперсию и некоторую неустранимую ошибку. (Это показано в цитатах ниже.) Чрезмерно сглаженные модели имеют высокое смещение, даже если они имеют низкую дисперсию, а слишком грубые модели имеют высокую дисперсию и низкое смещение.

В этом нет ничего философского. Это математическая характеристика. Это не зависит от характера шума или характера системы.

Видеть:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (Это происходит от разложения.)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Блей делает то же самое по-другому и вносит то, что происходит, когда кто-то пытается предсказать.)

Классическая статистика почти всегда настаивала на объективных оценках. В 1955 году статистик Чарльз Стейн из Стэнфорда показал, что существуют комбинации непредвзятых оценщиков, которые имеют более низкую MSE для важных особых случаев, в частности, так называемых оценщиков Джеймса-Штейна. Брэдли Эфрон написал очень доступный текст об этой революции в прозрении: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

— Ян Галковски
источник