Корреляция Пирсона будет использоваться , чтобы посмотреть на корреляции между сериями ... но , будучи временной ряд корреляционная смотрится на разных лагов - в функции взаимной корреляции .
На взаимную корреляцию влияет зависимость внутри ряда, поэтому во многих случаях сначала следует удалить зависимость внутри ряда. Таким образом, чтобы использовать эту корреляцию, а не сглаживать ряды, на самом деле чаще (потому что это имеет смысл) смотреть на зависимость между остатками - грубая часть, которая остается после того, как найдена подходящая модель для переменных.
Возможно, вы захотите начать с некоторых основных ресурсов по моделям временных рядов, прежде чем углубиться в попытки выяснить, является ли корреляция Пирсона между (предположительно) нестационарными, сглаженными рядами интерпретируемой.
В частности, вы, вероятно, захотите посмотреть на это явление здесь . [Во временных рядах это иногда называют ложной корреляцией , хотя в статье Википедии о ложной корреляции узко рассматривается использование термина таким образом, который, по-видимому, исключает его использование. Вы, вероятно, найдете больше информации по обсуждаемым здесь вопросам, вместо того чтобы искать ложную регрессию .]
[Редактировать - пейзаж Википедии постоянно меняется; вышеуказанный пункт вероятно, следует пересмотреть, чтобы отразить то, что там сейчас.]
например, посмотреть некоторые обсуждения
http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (вступительная цитата Йоля в статье, представленной в 1925 году, но опубликованной в следующем году, достаточно хорошо описывает проблему)
Кристос Агиаклогу и Апостолос Цимпанос, Ложные корреляции для стационарных процессов AR (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (это показывает, что вы даже проблема между стационарными рядами, отсюда и тенденция к белению)
Классическая ссылка Yule, (1926) [1] упоминается выше.
Вы также можете найти обсуждение здесь полезным, а также обсуждение здесь
-
Использовать корреляцию Пирсона осмысленно между временными рядами сложно, а иногда удивительно тонко.
Я искал ложную корреляцию, но мне все равно, является ли моя серия А причиной моей серии В или наоборот. Я только хочу знать, можете ли вы узнать что-то о серии A, посмотрев, что делает серия B (или наоборот). Другими словами - есть ли у них корреляция.
Обратите внимание на мой предыдущий комментарий об узком использовании термина «ложная корреляция» в статье Википедии.
Смысл ложной корреляции состоит в том, что ряды могут казаться коррелированными, но сама корреляция не имеет смысла. Представьте, что два человека бросают две разные монеты, считая количество голов до минус количество хвостов и стоимость их рядов.
(Так что, если человек 1 бросает у него есть 3-1 = 2 для значения на 4-м временном шаге, и его серия идет в )HTHH ...1 , 0 , 1 , 2 , . , ,
Очевидно, что нет никакой связи между двумя сериями. Ясно, что ни один не может сказать вам первое о другом!
Но посмотрите на вид корреляций между парами монет:
Если бы я не сказал вам, что это были, а вы взяли какую-нибудь пару из этих серий, это были бы впечатляющие корреляции, не так ли?
Но они все бессмысленны . Совершенно фальшивый Ни одна из трех пар на самом деле не имеет более положительного или отрицательного отношения друг к другу, чем любая другая, - это просто кумулятивный шум . Поддельность это не только предсказание, все понятие о рассмотрении связи между рядами без учета зависимости внутригрупповых серий неуместно.
Все, что у вас здесь есть, это зависимость внутри серии . Там нет никакого фактического отношения кросс-серии.
Как только вы правильно решите проблему, которая делает эти ряды автоматически зависимыми - все они интегрированы ( случайные блуждания Бернулли ), так что вам нужно их различать - исчезает «кажущаяся» связь (наибольшая абсолютная корреляция между сериями из трех 0,048).
То, что это говорит вам, является правдой - кажущаяся связь - это всего лишь иллюзия, вызванная зависимостью внутри ряда.
На ваш вопрос был задан вопрос «как правильно использовать корреляцию Пирсона с временными рядами» - поэтому, пожалуйста, поймите: если есть зависимость внутри ряда, и вы сначала не справляетесь с ней, вы не будете ее правильно использовать.
Кроме того, сглаживание не уменьшит проблему последовательной зависимости; совсем наоборот - это делает его еще хуже! Вот корреляции после сглаживания (по умолчанию лёссовое сглаживание - ряда против индекса - выполнено в R):
coin1 coin2
coin2 0.9696378
coin3 -0.8829326 -0.7733559
Они все пошли дальше от 0. Они все еще ничего, кроме бессмысленного шума , хотя теперь это сглаженный, накопленный шум. (Сглаживая, мы уменьшаем изменчивость в ряду, который мы помещаем в расчет корреляции, поэтому, возможно, корреляция возрастает.)
[1]: Yule, GU (1926) «Почему мы иногда получаем бессмысленные корреляции между временными рядами?» J.Roy.Stat.Soc. , 89 , 1 , с. 1-63