Докажите эквивалентность следующих двух формул для корреляции Спирмена


14

Из википедии ранговая корреляция Спирмена рассчитывается путем преобразования переменных и в ранжированные переменные и , а затем расчета корреляции Пирсона между ранговыми переменными:XiYixiyi

Рассчитать Спирмена через википедию

Однако в статье утверждается, что если между переменными и нет связей , приведенная выше формула эквивалентнаXiYi

вторая формула для расчета Спирмена

где di=yixi , разница в званиях.

Может кто-нибудь дать подтверждение этому, пожалуйста? У меня нет доступа к учебникам, на которые ссылается статья в Википедии.

Ответы:


14

ρ=i(xix¯)(yiy¯)i(xix¯)2i(yiy¯)2

Поскольку связи отсутствуют, и состоят из целых чисел от до включительно.у 1 нxy1n

Следовательно, мы можем переписать знаменатель:

i(xix¯)(yiy¯)i(xix¯)2

Но знаменатель - это просто функция от :n

i(xix¯)2=ixi2nx¯2=n(n+1)(2n+1)6n((n+1)2)2=n(n+1)((2n+1)6(n+1)4)=n(n+1)((8n+46n6)24)=n(n+1)((n1)12)=n(n21)12

Теперь давайте посмотрим на числитель:

i(xix¯)(yiy¯)=ixi(yiy¯)ix¯(yiy¯)=ixiyiy¯ixix¯iyi+nx¯y¯=ixiyinx¯y¯=ixiyin(n+12)2=ixiyin(n+1)123(n+1)=n(n+1)12.(3(n+1))+ixiyi=n(n+1)12.[(n1)(4n+2)]+ixiyi=n(n+1)(n1)12n(n+1)(2n+1)/6+ixiyi=n(n+1)(n1)12ixi2+ixiyi=n(n+1)(n1)12i(xi2+yi2)/2+ixiyi=n(n+1)(n1)12i(xi22xiyi+yi2)/2=n(n+1)(n1)12i(xiyi)2/2=n(n21)12di2/2

Числитель / Знаменатель

=n(n+1)(n1)/12di2/2n(n21)/12=n(n21)/12di2/2n(n21)/12=16di2n(n21) .

следовательно

ρ=16di2n(n21).


5
Вы можете исключить последние 80% этой работы, начав с наблюдения, что инвариантен при изменении местоположения и масштаба, тем самым уменьшая проблему до выражения в терминах когда ; формула, очевидно, имеет вид . Тогда единственная реальная работа, которую нужно сделать, выполняется вашим расчетом знаменателя. ρxiyi(xiyi)2xi2=yi2=112di2=12(xiyi)2=1xiyi
whuber

@ whuber +1, это немного лучше. Но я думаю, что я оставлю это в более длинной, менее опрятной, форме быка у ворот.
Glen_b

спасибо, оба ответа хороши, но я принял этот, так как именно он начал пытаться сам.
Алекс

Я должен объяснить свои причины для перехода к более прозаическому пути - другие ответы аккуратны, понятны и умны, но требуют понимания, которое вряд ли кто-либо, кроме лучших учеников, сможет выработать самостоятельно. Преимущество демонстрации того, что он полностью поддается прямому объяснению, если не вдохновляет манипулирование, состоит в том, что оно должно быть в пределах досягаемости даже умеренно способного, если он не вдохновлен для понимания ученика. Иногда полезно знать, что вам не нужны какие-то проницательные уловки (тем, кто их не видит).
Glen_b

Я полагаю, это зависит от вашего взгляда на то, что представляет собой «уловка», «манипуляция» и «понимание». Длинные батареи вовлеченных алгебраических вычислений, как вы понимаете, дают мало или вообще не дают понимания (а также предлагают много возможностей для ошибок) - и я боюсь, что студенты могут рассматривать их как грозные для их самой большой массы, так и немотивированные. Другие операции, такие как предварительная стандартизация (которая здесь очень полезна), могут первоначально рассматриваться как «уловки», но после нескольких приложений их следует рассматривать как проницательные и фундаментальные инструменты.
whuber

10

Мы видим, что во второй формуле появляется евклидово расстояние в квадрате между двумя (ранжированными) переменными: . Решающей интуицией в начале будет то, как может быть связан с . Это ясно связано с помощью теоремы косинуса . Если две переменные центрированы, то косинус в формуле связанной теоремы равен (это легко доказать, мы примем здесь как должное). И (евклидова норма в квадрате) есть , сумма квадратов в центрированной переменной. Таким образом, формула теоремы выглядит следующим образом:D2=Σdi2D2rrh2Nσ2Dxy2=Nσx2+Nσy22NσxNσyr, Обратите внимание также на еще одну важную вещь (которая может быть подтверждена отдельно): когда данные являются рангами , одинаков для центрированных и не центрированных данных.D2

Кроме того, поскольку две переменные были ранжированы, их дисперсии одинаковы, , поэтому .σx=σy=σD2=2Nσ22Nσ2r

r=1D22Nσ2 . Напомним, что ранжированные данные взяты из дискретного равномерного распределения, имеющего дисперсию . Подставляя его в формулу, мы оставляем .(N21)/12r=16D2N(N21)


8

Алгебра проще, чем может показаться на первый взгляд.

ИМХО, мало пользы или понимания, достигаемого путем использования алгебраических манипуляций. Вместо этого действительно простая идентификация показывает, почему квадратные различия могут использоваться для выражения (обычного Пирсона) коэффициента корреляции. Применение этого к особому случаю, когда данные являются рангами, дает результат. Это показывает прежде загадочный коэффициент

6n(n21)

как половина обратной величины дисперсии рангов . (При наличии связей этот коэффициент приобретает более сложную формулу, но все равно будет вдвое меньше обратной дисперсии рангов, присвоенных данным.)1,2,,n

Как только вы увидели и поняли это, формула становится запоминающейся. Сравнимые (но более сложные) формулы, которые обрабатывают связи, обнаруживаются в непараметрических статистических тестах, таких как критерий суммы рангов Уилкоксона, или появляются в пространственной статистике (например, Морана I, Си Гири и других), становятся понятными мгновенно.


Рассмотрим любой набор парных данных со средствами ··· X и ··· Y и дисперсиями ев 2 X и ˙s 2 Y . Перецентрируя переменные по их средним значениям ˉ X и ˉ Y и используя их стандартные отклонения s X и s Y в качестве единиц измерения, данные будут повторно выражены в виде стандартизированных значений.(Xi,Yi)X¯Y¯sX2sY2X¯Y¯sXsY

(xi,yi)=(XiX¯sX,YiY¯sY).

По определению коэффициент корреляции Пирсона исходных данных представляет собой среднее произведение стандартизированных значений,

ρ=1ni=1nxiyi.

Идентификация поляризации связывает продукты с квадратами. Для двух чисел и у он утверждаетxy

xy=12(x2+y2(xy)2),

что легко проверяется. Применение этого к каждому члену в сумме дает

ρ=1ni=1n12(xi2+yi2(xiyi)2).

Поскольку и y i были стандартизированы, их средние квадраты равны единице, откудаxiyi

(1)ρ=12(1+11ni=1n(xiyi)2)=112(1ni=1n(xiyi)2).

Коэффициент корреляции отличается от максимально возможного значения на половину среднего квадрата разности стандартизированных данных.1

Это универсальная формула для корреляции, действительная независимо от исходных данных (при условии, что обе переменные имеют ненулевые стандартные отклонения). (Верные читатели этого сайта признают, что это тесно связано с геометрической характеристикой ковариации, описанной и иллюстрированной в разделе « Как бы вы объяснили ковариацию тому, кто понимает только среднее?» .)


В особом случае, когда и Y i являются различными рангами , каждый является перестановкой одной и той же последовательности чисел 1 , 2 , , n . Таким образом, ˉ X = ˉ Y = ( n + 1 ) / 2 и с небольшим расчетом находимXiYi1,2,,nX¯=Y¯=(n+1)/2

sX2=sY2=1ni=1n(i(n+1)/2)2=n2112

(что, к счастью, отлично от нуля всякий раз, когда ). Следовательноn>1

(xiyi)2=((Xi(n+1)/2)(Yi(n+1)/2))2(n21)/12=12(XiYi)2n21.

Это хорошее упрощение произошло потому, что и Y i имеют одинаковые средние значения и стандартные отклонения: следовательно, разница их средних значений исчезла, и произведение s X s Y стало s 2 X, которое не имеет квадратных корней .XiYisXsYsX2

Подставив это в формулу для ρ, мы получим(1)ρ

ρ=16n(n21)i=1n(XiYi)2.

2
(+1) Геометрическая интерпретация в терминах вашего знаменитого ответа «прямоугольники для ковариации» очень аккуратна, но мне интересно, увидят ли ее случайные читатели - возможно, поможет эскизная схема (у меня было искушение добавить ее самостоятельно!). Для любопытных: формула - это номер 9 в списке « Тринадцати способов взглянуть на коэффициент корреляции » Джозефа Ли Роджерса и В. Алана Никандера в «Американской статистике», том. 42, № 1. (февраль, 1988), с. 59-66. stat.berkeley.edu/~rabbee/correlation.pdfr=1sxy2/2
Серебряная рыбка

2
@Silver Спасибо за полезные комментарии. Статья Роджерса и Никвандера представлена ​​на нашем сайте stats.stackexchange.com/a/104577 . Когда-нибудь я мог бы нарисовать схему, которую вы описываете ...
whuber

5

Ученики старших классов могут увидеть формулы корреляции PMCC и Spearman за годы до того, как у них появятся навыки алгебры для манипулирования сигма-нотацией, хотя они могут хорошо знать метод конечных различий для получения полиномиального уравнения для последовательности . Поэтому я попытался написать «доказательство старшей школы» для эквивалентности: найти знаменатель, используя конечные разности, и минимизировать алгебраическое манипулирование суммами в числителе. В зависимости от студентов, которым представлено доказательство, вы можете предпочесть этот подход числителю, но объединить его с более обычным методом для знаменателя.

Знаменатель , i(xix¯)2i(yiy¯)2

{1,2,,n}x¯=n+12Sxx=i=1n(xix¯)2=k=1n(kn+12)2, though with lower grade students I'd likely write this sum out explicitly rather than in sigma notation. The sum of a quadratic in k will be cubic in n, a fact that students familiar with the finite difference method may grasp intuitively: differencing a cubic produces a quadratic, so summing a quadratic produces a cubic. Determining the coefficients of the cubic f(n) is straightforward if students are comfortable manipulating Σ notation and know (and remember!) the formulae for k=1nk and k=1nk2. But they can also be deduced using finite differences, as follows.

When n=1, the data set is just {1}, x¯=1, so f(1)=(11)2=0.

For n=2, the data are {1,2}, x¯=1.5, so f(2)=(11.5)2+(21.5)2=0.5.

For n=3, the data are {1,2,3}, x¯=2, so f(3)=(12)2+(22)2+(32)2=2.

These computations are fairly brief, and help reinforce what the notation i=1n(xix¯)2 means, and in short order we produce the finite difference table.

Finite difference table for Sxx

We can obtain the coefficients of f(n) by cranking out the finite difference method as outlined in the links above. For instance, the constant third differences indicate our polynomial is indeed cubic, with leading coefficient 0.53!=112. There are a few tricks to minimise drudgery: a well-known one is to use the common differences to extend the sequence back to n=0, as knowing f(0) immediately gives away the constant coefficient. Another is to try extending the sequence to see if f(n) is zero for an integer n - e.g. if the sequence had been positive but decreasing, it would be worth extending rightwards to see if we could "catch a root", as this makes factorisation easier later. In our case, the function seems to hover around low values when n is small, so let's extend even further leftwards.

Extended finite difference table for Sxx

Aha! It turns out we have caught all three roots: f(1)=f(0)=f(1)=0. So the polynomial has factors of (n+1), n, and (n1). Since it was cubic it must be of the form:

f(n)=an(n+1)(n1)

We can see that a must be the coefficient of n3 which we already determined to be 112. Alternatively, since f(2)=0.5 we have a(2)(3)(1)=0.5 which leads to the same conclusion. Expanding the difference of two squares gives:

Sxx=n(n21)12

Since the same argument applies to Syy, the denominator is SxxSyy=Sxx2=Sxx and we are done. Ignoring my exposition, this method is surprisingly short. If one can spot that the polynomial is cubic, it is necessary only to calculate Sxx for the cases n{1,2,3,4} to establish the third difference is 0.5. Root-hunters need only extend the sequence leftwards to n=0 and n=1, by when all three roots are found. It took me a couple of minutes to find Sxx this way.

Numerator, i(xix¯)(yiy¯)

I note the identity (ba)2b22ab+a2 which can be rearranged to:

ab12(a2+b2(ba)2)

If we let a=xix¯=xin+12 and b=yiy¯=yin+12 we have the useful result that ba=yixi=di because the means, being identical, cancel out. That was my intuition for writing the identity in the first place; I wanted to switch from working with the product of the moments to the square of their differences. We now have:

(xix¯)(yiy¯)=12((xix¯)2+(yiy¯)2di2)

Hopefully even students unsure how to manipulate Σ notation can see how summing over the data set yields:

Sxy=12(Sxx+Syyi=1ndi2)

We have already established, by reordering the sums, that Syy=Sxx, leaving us with:

Sxy=Sxx12i=1ndi2

The formula for Spearman's correlation coefficient is within our grasp!

rS=SxySxxSyy=Sxx12idi2Sxx=1idi22Sxx

Substituting the earlier result that Sxx=112n(n21) will finish the job.

rS=1idi2212n(n21)=16idi2n(n21)
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.