Коэффициент корреляции обычно пишется с большой буквы но иногда нет. Интересно, есть ли разница между и ? Может ли означать что-то еще, кроме коэффициента корреляции?
Коэффициент корреляции обычно пишется с большой буквы но иногда нет. Интересно, есть ли разница между и ? Может ли означать что-то еще, кроме коэффициента корреляции?
Ответы:
Обозначения по этому вопросу, кажется, немного различаются.
используется в контексте множественной корреляции и называется «коэффициентом множественной корреляции». Это корреляция между наблюдаемыми ответами и Y , установленнымипомощью модели. Y обычно предсказывается из нескольких предикторов X я , например , Y = β 0 + β 1 X 1 + β 2 X 2 , где перехватывают и наклон коэффициенты р я был оценен из данных. Обратите внимание, что 0 .
Символ - это «коэффициент корреляции выборки», используемый в двумерном случае - т.е. есть две переменные, X и Y - и он обычно означает корреляцию между X и Y в вашей выборке. Вы можете рассматривать это как оценку корреляции ρ между двумя переменными в более широком населении. Чтобы соотнести две переменные, нет необходимости определять, какая из них является предиктором, а какая - ответом. Действительно, если бы вы нашли корреляцию между Y и X, она была бы такой же, как корреляция между X и Y , потому что корреляция симметрична, Обратите внимание, что когда символ r используется таким образом, с r < 0 (отрицательная корреляция), если две переменные имеют линейно убывающую связь (когда одна возрастает, другая стремится убывать).
Нотация становится непоследовательной, когда есть две переменные, и Y , и выполняется простая линейная регрессия . Это означает , идентифицирующие одну переменную, Y , в качестве переменной отклика, а другой, X , в качестве переменной предсказателя и подгонки модели Y = β 0 + β 1 X . Некоторые люди также используют символ г , чтобы указать корреляцию между Y и Y в то время как другие (для совместимости с множественной регрессии) записи R, Обратите внимание, что корреляция между наблюдаемыми и подобранными ответами обязательно больше или равна нулю. Это одна из причин мне не нравится использование символ в этом случае: корреляция между X и Y может быть отрицательной, в то время как корреляция между Y и Y является положительной (на самом деле это будет просто модуль корреляция между X и Y ), но оба могут быть записаны с символом r . Я видел некоторые учебники и статьи из Википедии, которые почти взаимозаменяемо переключаются между двумя значениями r и находят это излишне запутывающим. Я предпочитаю использовать символ Rкорреляции между и Y в одиночной и множественной регрессии.
В простой и множественной regresion, то до тех пор , пока существует общий термин перехвата установлена в модели, между Y и Y представляет собой просто квадратный корень из коэффициента детерминации R 2 (часто называемый «процент дисперсии объяснил» или аналогичный). В частности, в случае простой линейной регрессии, тогда где я пишу для корреляции между X и Y , а R 2 может представлять либо коэффициент определения регрессии, либо квадрат корреляции между и Y . Поскольку - 1 ≤ r ≤ 1 и 0 ≤ R ≤ 1 , это означает, что R = | г | , Так, например, если вы получите корреляцию между X и Y из г = - 0,7 , то связь между Y и подогнанной Y от простой линейной регрессии Y = & beta ; 0 + β 1 Xбудет а коэффициент детерминации будет R 2 = 0,49, т. е. почти половина вариации в ответе будет объясняться вашей моделью.
Если член перехвата не был включен в модель, то символ является неоднозначным. Обычно он рассматривается как коэффициент детерминации, но, как правило, он рассчитывается не так, как обычно , поэтому будьте осторожны при чтении результатов из вашего статистического программного обеспечения. Тогда он больше не будет квадратом кратной корреляции R , и в двумерном случае он не будет равен r 2 !