Как правильно использовать корреляцию Пирсона с временными рядами


47

У меня есть 2 временных ряда (оба гладких), которые я хотел бы взаимно коррелировать, чтобы увидеть, насколько они коррелированы.

Я намерен использовать коэффициент корреляции Пирсона. Это уместно?

Мой второй вопрос - я могу выбрать 2 временных ряда так, как мне нравится. т.е. я могу выбрать, сколько точек данных я буду использовать. Повлияет ли это на коэффициент корреляции, который выводится? Нужно ли мне это учитывать?

Для иллюстрации

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]  

1
Какова природа временных рядов? Это случайная прогулка? Стационарные? Экономическая серия?
Аксакал

Ответы:


72

Корреляция Пирсона будет использоваться , чтобы посмотреть на корреляции между сериями ... но , будучи временной ряд корреляционная смотрится на разных лагов - в функции взаимной корреляции .

На взаимную корреляцию влияет зависимость внутри ряда, поэтому во многих случаях сначала следует удалить зависимость внутри ряда. Таким образом, чтобы использовать эту корреляцию, а не сглаживать ряды, на самом деле чаще (потому что это имеет смысл) смотреть на зависимость между остатками - грубая часть, которая остается после того, как найдена подходящая модель для переменных.

Возможно, вы захотите начать с некоторых основных ресурсов по моделям временных рядов, прежде чем углубиться в попытки выяснить, является ли корреляция Пирсона между (предположительно) нестационарными, сглаженными рядами интерпретируемой.

В частности, вы, вероятно, захотите посмотреть на это явление здесь . [Во временных рядах это иногда называют ложной корреляцией , хотя в статье Википедии о ложной корреляции узко рассматривается использование термина таким образом, который, по-видимому, исключает его использование. Вы, вероятно, найдете больше информации по обсуждаемым здесь вопросам, вместо того чтобы искать ложную регрессию .]

[Редактировать - пейзаж Википедии постоянно меняется; вышеуказанный пункт вероятно, следует пересмотреть, чтобы отразить то, что там сейчас.]

например, посмотреть некоторые обсуждения

  1. http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (вступительная цитата Йоля в статье, представленной в 1925 году, но опубликованной в следующем году, достаточно хорошо описывает проблему)

  2. Кристос Агиаклогу и Апостолос Цимпанос, Ложные корреляции для стационарных процессов AR (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (это показывает, что вы даже проблема между стационарными рядами, отсюда и тенденция к белению)

  3. Классическая ссылка Yule, (1926) [1] упоминается выше.

Вы также можете найти обсуждение здесь полезным, а также обсуждение здесь

-

Использовать корреляцию Пирсона осмысленно между временными рядами сложно, а иногда удивительно тонко.


Я искал ложную корреляцию, но мне все равно, является ли моя серия А причиной моей серии В или наоборот. Я только хочу знать, можете ли вы узнать что-то о серии A, посмотрев, что делает серия B (или наоборот). Другими словами - есть ли у них корреляция.

Обратите внимание на мой предыдущий комментарий об узком использовании термина «ложная корреляция» в статье Википедии.

Смысл ложной корреляции состоит в том, что ряды могут казаться коррелированными, но сама корреляция не имеет смысла. Представьте, что два человека бросают две разные монеты, считая количество голов до минус количество хвостов и стоимость их рядов.

(Так что, если человек 1 бросает у него есть 3-1 = 2 для значения на 4-м временном шаге, и его серия идет в )HTHH...1,0,1,2,...

Очевидно, что нет никакой связи между двумя сериями. Ясно, что ни один не может сказать вам первое о другом!

Но посмотрите на вид корреляций между парами монет:

введите описание изображения здесь

Если бы я не сказал вам, что это были, а вы взяли какую-нибудь пару из этих серий, это были бы впечатляющие корреляции, не так ли?

Но они все бессмысленны . Совершенно фальшивый Ни одна из трех пар на самом деле не имеет более положительного или отрицательного отношения друг к другу, чем любая другая, - это просто кумулятивный шум . Поддельность это не только предсказание, все понятие о рассмотрении связи между рядами без учета зависимости внутригрупповых серий неуместно.

Все, что у вас здесь есть, это зависимость внутри серии . Там нет никакого фактического отношения кросс-серии.

Как только вы правильно решите проблему, которая делает эти ряды автоматически зависимыми - все они интегрированы ( случайные блуждания Бернулли ), так что вам нужно их различать - исчезает «кажущаяся» связь (наибольшая абсолютная корреляция между сериями из трех 0,048).

То, что это говорит вам, является правдой - кажущаяся связь - это всего лишь иллюзия, вызванная зависимостью внутри ряда.

На ваш вопрос был задан вопрос «как правильно использовать корреляцию Пирсона с временными рядами» - поэтому, пожалуйста, поймите: если есть зависимость внутри ряда, и вы сначала не справляетесь с ней, вы не будете ее правильно использовать.

Кроме того, сглаживание не уменьшит проблему последовательной зависимости; совсем наоборот - это делает его еще хуже! Вот корреляции после сглаживания (по умолчанию лёссовое сглаживание - ряда против индекса - выполнено в R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

Они все пошли дальше от 0. Они все еще ничего, кроме бессмысленного шума , хотя теперь это сглаженный, накопленный шум. (Сглаживая, мы уменьшаем изменчивость в ряду, который мы помещаем в расчет корреляции, поэтому, возможно, корреляция возрастает.)

[1]: Yule, GU (1926) «Почему мы иногда получаем бессмысленные корреляции между временными рядами?» J.Roy.Stat.Soc. , 89 , 1 , с. 1-63


Спасибо за отличный ответ. Я искал ложную корреляцию, но мне все равно, является ли моя серия А причиной моей серии В или наоборот. Я только хочу знать, можете ли вы узнать что-то о серии A, посмотрев, что делает серия B (или наоборот). Другими словами - есть ли у них корреляция.
user1551817

Пожалуйста, смотрите мой обновленный ответ.
Glen_b

2
«... так что вам нужно их различать ...» что это значит именно? Может быть, их дифференцировать? ..
Георгиос Плигоропулос

1
Дифференцирование - см. Википедию здесь или этот раздел книги « Прогнозирование, принципы и практика» . На ваш последующий вопрос, остальная часть абзаца, который вы цитируете, прямо говорит об этом. (Однако это не единственная возможность, просто описать одну довольно распространенную вещь, которая была сделана)
Glen_b

1
Я
нашел

6

Чтобы завершить ответ Glen_b и его / ее пример на случайных блужданиях, если вы действительно хотите использовать корреляцию Пирсона для такого рода временных рядов , вы должны сначала их дифференцировать, затем рассчитать коэффициент корреляции по приращениям ( ), которые (в случае случайных блужданий) независимы и одинаково распределены. Я предлагаю вам использовать корреляцию Спирмена или Кендалла, поскольку они более устойчивы, чем коэффициент Пирсона. Пирсон измеряет линейную зависимость, тогда как мера Спирмена и Кендалла инвариантна монотонными преобразованиями ваших переменных. X t = S t - S t - 1(St)1tTXt=StSt1

Кроме того, представьте, что два временных ряда сильно зависят, скажем, движутся вместе вверх и вниз вместе, но один подвергается иногда сильным вариациям, а другой - всегда умеренным, корреляция Пирсона будет довольно низкой, в отличие от спирмена и кендалла (которые лучше оценки зависимости между вашими временными рядами).

Для тщательного изучения этого вопроса и лучшего понимания зависимости вы можете взглянуть на Теорию Копулы и на применение к временным рядам .


4

Данные временного ряда обычно зависят от времени. Однако корреляция Пирсона подходит для независимых данных. Эта проблема похожа на так называемую ложную регрессию. Коэффициент, вероятно, будет очень значительным, но это происходит только из-за временной тенденции данных, которые влияют на оба ряда. Я рекомендую смоделировать данные и затем попытаться выяснить, дает ли моделирование одинаковые результаты для обеих серий. Однако использование коэффициента корреляции Пирсона, скорее всего, даст неверные результаты для интерпретации структуры зависимости.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.