Экспоненциальное сглаживание - это классическая методика, используемая в прогнозировании временных рядов без причинно-следственных связей. Пока вы используете его только в прямом прогнозировании и не используете сглаженные выборки в качестве входных данных для другого анализа данных или статистического алгоритма, критика Бриггса неприменима. (Соответственно, я скептически отношусь к тому, чтобы использовать его «для получения сглаженных данных для представления», как говорит Википедия - это вполне может ввести в заблуждение, скрывая сглаженную изменчивость.)
Вот введение в учебник по экспоненциальному сглаживанию.
И вот (10-летняя, но все еще актуальная) обзорная статья.
РЕДАКТИРОВАТЬ: кажется, есть некоторые сомнения в обоснованности критики Бриггса, возможно, несколько под влиянием его упаковки . Я полностью согласен, что тон Бриггса может быть абразивным. Тем не менее, я хотел бы проиллюстрировать, почему я думаю, что он имеет смысл.
Ниже я моделирую 10000 пар временных рядов по 100 наблюдений в каждой. Все серии - белый шум, без какой-либо корреляции. Таким образом, выполнение стандартного корреляционного теста должно дать значения p, которые равномерно распределены по [0,1]. Как это происходит (гистограмма слева внизу).
Однако предположим, что мы сначала сглаживаем каждую серию и применяем корреляционный тест к сглаженным данным. Появляется нечто удивительное: так как мы удалили много изменчивости из данных, мы получаем значения p, которые слишком малы . Наш корреляционный тест сильно смещен. Таким образом, мы будем слишком уверены в любой связи между оригинальными сериями, о которой говорит Бриггс.
Вопрос в действительности заключается в том, используем ли мы сглаженные данные для прогнозирования, и в этом случае сглаживание является действительным, или же мы включаем его в качестве входных данных в некоторый аналитический алгоритм, и в этом случае удаление изменчивости будет имитировать более высокую достоверность в наших данных, чем это оправдано. Эта необоснованная уверенность во входных данных переносится в конечные результаты и должна быть учтена, в противном случае все выводы будут слишком точными. (И, конечно, мы также получим слишком малые интервалы прогнозирования, если будем использовать модель, основанную на «завышенной достоверности» для прогнозирования.)
n.series <- 1e4
n.time <- 1e2
p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
A <- rnorm(n.time)
B <- rnorm(n.time)
p.corr[ii] <- cor.test(A,B)$p.value
p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}
par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")