Краткий ответ: очень ненадежный. Корреляция является мерой линейной зависимости , и когда одна переменная не может быть записана как линейная функция другой (и все еще имеет заданное предельное распределение), вы не можете иметь идеальную (положительную или отрицательную) корреляцию. Фактически, возможные значения корреляций могут быть строго ограничены.
Проблема заключается в том, что в то время как соотношение населения всегда между и 1 , точным диапазоном достижимо в значительной степени зависит от предельных распределений. Быстрое доказательство и демонстрация:−11
Достижимый диапазон корреляции
Если имеет функцию распределения H и маргинальные функции распределения F и G , существуют некоторые довольно хорошие верхние и нижние оценки для H ,
H -(X,Y)HFGH
называется границами Фреше. Это
Н - ( х , у )
H−(x,y)≤H(x,y)≤H+(x,y),
(Попробуйте доказать это; это не очень сложно.)
H−(x,y)H+(x,y)=max(F(x)+G(y)−1,0)=min(F(x),G(y)).
Границы сами являются функциями распределения. Пусть имеет равномерное распределение. Верхняя граница является функцией распределения ( X , Y ) = ( F - ( UU а нижняя граница является функцией распределения ( F - ( - U ) , G - ( 1 - U) ) ) .(X,Y)=(F−(U),G−(U))(F−(−U),G−(1−U))
Теперь, используя этот вариант по формуле для ковариации,
мы видимчто мы получаем максимальное и минимальное соотношениекогда Н равна Н + и Н - соответственно, то есть, когда Y представляет собой (положительно или отрицательно, соответственно) монотонная функция X .
Cov(X,Y)=∬H(x,y)−F(x)G(y)dxdy,
HH+H−YX
Примеры
Вот несколько примеров (без доказательств):
Когда и Y нормально распределены, мы получаем максимум и минимум, когда ( X , YXY имеет обычное двумерное нормальное распределениегде Y записывается в виде линейной функции X . То есть мы получаем максимум для
Y = μ Y + σ Y X - μ X(X,Y)YX
Здесь оценки являются (конечно)-1и1, независимотогокаких средств и дисперсийXиYимеют.
Y=μY+σYX−μXσX.
−11XY
Когда и Y имеют логнормальные распределения, нижняя граница никогда не будет достигнута, поскольку это будет означать, что Y может быть записано Y = a - b X для некоторогоXYYY=a−bX и положительного b , а Y никогда не может быть отрицательным. Существуют (немного некрасивые) формулы для точных границ, но позвольте мне привести специальный случай. Когда X и Y имеют стандартные логнормальные распределения (то есть, когда они возведены в степень, они стандартно нормальны), достижимый диапазон составляет [ - 1 / e , 1 ] ≈abYXY . (В общем, верхняя граница также ограничена.)[−1/e,1]≈[−0.37,1]
Когда имеет стандартное нормальное распределение, а Y имеет стандартное логнормальное распределение, границы корреляции составляют
± 1XY
±1e−1−−−−√≈0.76.
Обратите внимание, что все оценки даны для корреляции населения . Корреляция выборки может легко выходить за границы, особенно для небольших выборок (быстрый пример: размер выборки 2).
Оценка корреляционных границ
На самом деле довольно легко оценить верхнюю и нижнюю границы корреляции, если вы можете моделировать из маргинальных распределений. Для последнего примера выше мы можем использовать этот код R:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
Если у нас есть только фактические данные и мы не знаем предельных распределений, мы все равно можем использовать вышеуказанный метод. Это не проблема, что переменные являются зависимыми, пока пары наблюдений являются зависимыми. Но это помогает иметь много пар наблюдения.
Преобразование данных
YX
То, что вы действительно делаете здесь, - это создание новой меры зависимости, которая не зависит от предельных распределений; то есть вы создаете меру зависимости на основе связки . Там уже существует несколько таких мер, Спирмена ρ и Кендалла τ причем наиболее хорошо известны. (Если вы действительно заинтересованы в понятиях зависимости, неплохо было бы заглянуть в связки.)
В заключение
Несколько заключительных мыслей и советов: один взгляд на корреляцию имеет одну большую проблему: он заставляет вас перестать думать. С другой стороны, если посмотреть на точечные диаграммы, вы часто начинаете думать. Поэтому мой главный совет - изучить графики рассеяния и попытаться смоделировать зависимость явно.
Тем не менее, если вам нужна простая корреляционная мера, я бы просто использовал ρ Спирмена (и соответствующий доверительный интервал и тесты). Его ассортимент не ограничен. Но следует помнить о немонотонной зависимости. В статье Википедии о корреляции есть несколько хороших графиков, иллюстрирующих потенциальные проблемы.