Как понять формулу коэффициента корреляции?


15

Может ли кто-нибудь помочь мне понять формулу корреляции Пирсона? образец = среднее из продуктов стандартных оценок переменных X и Y .rXY

Я вроде понимаю, почему им нужно стандартизировать и Y , но как понять продукты обоих z-баллов? XY

Эта формула также называется «коэффициент корреляции продукта и момента», но каково обоснование действия продукта? Я не уверен, ясно ли я изложил свой вопрос, но я просто хочу запомнить формулу интуитивно.


11
Возможно, вы захотите прочитать статью «Тринадцать способов взглянуть на коэффициент корреляции» (Rodgers & Nicewander 1988). Как следует из названия, в нем рассматриваются тринадцать различных интуитивных представлений о коэффициенте корреляции. Так что, надеюсь, по крайней мере, один клик :)
половина прохода

10
13 путей можно найти здесь
Дмитрий Васильевич Мастеров

4
14-й способ понять корреляцию (в терминах произведений z-баллов) сводится к пониманию ковариации стандартизированных переменных, как показано на stats.stackexchange.com/questions/18058/… .
whuber

4
... И 15-й способ использует круги, показанные на stats.stackexchange.com/a/46508/919 : подбор по методу наименьших квадратов минимизирует общую площадь кругов (есть по крайней мере два способа сделать это, когда точки не точно выстраиваются), а коэффициент корреляции - это их средняя площадь (когда обе переменные стандартизированы).
whuber

Ответы:


14

В комментариях было предложено 15 способов понять коэффициент корреляции:


13 способов, обсуждаемых в статье Роджерса и Никвандера («Американский статистик», февраль 1988 г.):

  1. Функция необработанных результатов и средств,

    r=(XiX¯)(YiY¯)(XiX¯)2(YiY¯)2.
  2. Стандартизированная ковариация,

    r=sXY/(sXsY)

    где - выборочная ковариация, а s X и s Y - выборочные стандартные отклонения.sXYsXsY

  3. Стандартизированный наклон линии регрессии,

    r=bYXsXsY=bXYsYsX,

    где и b X Y - наклоны линий регрессии.bYXbXY

  4. Среднее геометрическое значение двух наклонов регрессии,

    r=±bYXbXY.
  5. Квадратный корень отношения двух вариаций (учитываемая доля изменчивости),

    r=(YiYi^)2(YiY¯)2=SSREGSSTOT=sY^sY.
  6. Среднее перекрестное произведение стандартизированных переменных,

    r=zXzY/N.
  7. Функция угла между двумя стандартизированными линиями регрессии. Две линии регрессии ( против X и X против Y ) симметричны относительно диагонали. Пусть угол между двумя линиями равен β . потомYXXYβ

    r=sec(β)±tan(β).
  8. Функция угла между двумя переменными векторами,

    r=cos(α).
  9. Пересчитанная дисперсия разницы между стандартизированными оценками. Пусть будет разницей между стандартизированными переменными X и Y для каждого наблюдения,zYzXXY

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. По оценкам из правила "Воздушный шар",

    r1(h/H)2

    где - вертикальный диапазон всей диаграммы рассеяния X - Y, а h - диапазон через «центр распределения по оси X » (то есть через среднюю точку).HXYhX

  11. По отношению к двумерным эллипсам изоконцентрации

    r=D2d2D2+d2

    где и d - длины большой и малой осей соответственно. r также равен наклону касательной линии изоконтура (в стандартизированных координатах) в точке, где контур пересекает вертикальную ось.Ddr

  12. Функция статистики испытаний из разработанных экспериментов,

    r=tt2+n2

    ttX=0,1n

  13. XcX

    r=E(Y|X>Xc)E(X|X>Xc).

(Большинство из них дословно, с некоторыми незначительными изменениями в некоторых обозначениях.)

Некоторые другие методы (возможно, оригинальные для этого сайта)

  • r

  • r


2
Спасибо, @Avraham, за попытку закрыть эту ветку без ответа, разместив ответ здесь.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.