Разница между допущениями, лежащими в основе корреляционных и регрессионных тестов значимости наклона


21

Мой вопрос возник из обсуждения с @whuber в комментариях к другому вопросу .

В частности, комментарий @whuber был следующим:

Одна из причин, по которой вас это может удивить, заключается в том, что допущения, лежащие в основе теста корреляции и теста наклона регрессии, различны - поэтому даже когда мы понимаем, что корреляция и наклон действительно измеряют одно и то же, почему их значения p должны быть одинаковыми? Это показывает, как эти проблемы глубже, чем просто то, должны ли и быть численно равными.βрβ

Это заставило меня задуматься, и я наткнулся на множество интересных ответов. Например, я нашел этот вопрос « Допущения коэффициента корреляции », но не вижу, как это пояснит комментарий выше.

Я нашел более интересные ответы о взаимосвязи Пирсона и наклона в простой линейной регрессии (см. Здесь и здесь, например), но ни один из них, похоже, не отвечает на то, на что ссылался @whuber в своем комментарии (по крайней мере, не очевидно мне).βрβ

Вопрос 1: Какие предположения лежат в основе теста корреляции и теста на наклон регрессии?

Для моего второго вопроса рассмотрим следующие выводы R:

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

И вывод cor.test()функции:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

Как видно из результатов lm()и cov.test(), коэффициент корреляции Пирсона и оценка наклона ( ) в значительной степени различаются: 0,96 против 0,485 соответственно, но значения t и p одинаковы.β 1рβ1

Затем я также попытался выяснить, могу ли я рассчитать значение t для и β 1 , которые одинаковы, несмотря на то, что r и β 1 различны. И вот где я застреваю, по крайней мере, для r :рβ1рβ1р

Рассчитайте наклон ( ) в простой линейной регрессии, используя общие суммы квадратов x и y :β1ИксY

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

Вычислите оценку наименьших квадратов наклона регрессии, (тому есть подтверждение в 1-й редакции книги Кроули , стр. 393):β1

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

Рассчитаем стандартную ошибку для :β1

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

И t-значение, и p-значение для :β1

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

На данный момент я не знаю, а это вопрос 2 : как рассчитать одно и то же t-значение, используя вместо β 1 (возможно, по шагам ребенка)?рβ1

Я предполагаю, что поскольку cor.test()альтернативная гипотеза заключается в том, что истинная корреляция не равна 0 (см. cor.test()Вывод выше), я ожидал бы что-то вроде коэффициента корреляции Пирсона деленного на «стандартную ошибку коэффициента корреляции Пирсона» (аналогично над)?! Но что это за стандартная ошибка и почему?рb1/se.b1

Может быть, это как-то связано с вышеупомянутыми предположениями, лежащими в основе теста корреляции и теста на наклон регрессии ?

РЕДАКТИРОВАТЬ (27-Jul-2017): Хотя @whuber предоставил очень подробное объяснение Вопроса 1 (и частично Вопрос 2 , см. Комментарии под его ответом), я немного покопался и обнаружил, что эти два поста ( здесь и здесь ) делают показать конкретную стандартную ошибку для , которая хорошо подходит для ответа на вопрос 2 , то есть для воспроизведения t-значения с учетом r :рр

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956

2
Это тот же тест или, по крайней мере, эквивалентный тест. Если вы отвергаете гипотезу о том, что корреляция не равна нулю, тест также отвергает гипотезу о том, что наклон не равен нулю.
Майкл Р. Черник

6
@ Майкл Верно - но здесь есть много потенциальных моделей, и они разительно отличаются. Одной из них является стандартная модель для корреляции, из которой самым простым является то, что данные представляют собой выборку из некоторого неизвестного двумерного нормального распределения. Другой является некоторой версией модели OLS для регрессии против X - в двух вариантах, фиксированных регрессорах и случайных регрессорах. Другой меняет роли X и Y . Если у вас есть ощущение, что они должны давать одинаковые значения p для сопоставимых тестов гипотез, это, вероятно, только благодаря обширному знакомству, но это не является интуитивно очевидным! YИксИксY
whuber

1
@whuber Видя, что за этот вопрос так хорошо проголосовали, но нет удовлетворительного ответа, я открыл награду, которая закончилась сегодня раньше; сейчас льготный период. Один новый ответ был опубликован, и он хорошо объясняет вычисления корреляции как наклон, но утверждает, что нет никаких различий в предположениях, вопреки вашему цитируемому утверждению. Моя награда будет автоматически присуждена за этот новый ответ, если не появится другой. Я дам вам знать, если вы подумаете о публикации своего собственного ответа.
говорит амеба: восстанови Монику

1
@amoeba Спасибо; Я не заметил награду. Я частично опубликовал отчет о том, что имел в виду, когда писал замечание, которое вызвало этот вопрос. Я надеюсь, что это представляет некоторый прогресс в направлении, которое вы предложили.
whuber

Ответы:


5

Введение

Этот ответ обращается к основной мотивации для этого набора вопросов:

Какие предположения лежат в основе теста корреляции и теста на наклон регрессии?

В свете представленной в этом вопросе истории я хотел бы предложить немного расширить этот вопрос: давайте рассмотрим различные цели и концепции корреляции и регрессии.

Корреляция обычно вызывается в ситуациях, когда

  • Данные являются двумерными: с каждым «субъектом» или «наблюдением» связаны ровно два различных представляющих интерес значения.

  • Данные являются наблюдательными: ни одно из значений не было установлено экспериментатором. Оба наблюдались или измерялись.

  • Интерес заключается в выявлении, количественной оценке и тестировании некоторой взаимосвязи между переменными.

Регрессия используется где

  • Данные являются двумерными или многомерными: может быть более двух различных значений, представляющих интерес.

  • Интерес сосредоточен на понимании того, что можно сказать о подмножестве переменных - «зависимых» переменных или «откликах» - на основе того, что может быть известно о другом подмножестве - «независимых» переменных или «регрессорах».

  • Конкретные значения регрессоров могли быть установлены экспериментатором.

Эти различные цели и ситуации приводят к различным подходам. Поскольку этот поток обеспокоен их сходством, давайте сосредоточимся на случае, когда они наиболее похожи: двумерные данные. В любом случае эти данные обычно моделируются как реализации случайной величины . В общем, обе формы анализа ищут относительно простые характеристики этой переменной.(X,Y)

корреляция

Я считаю, что «корреляционный анализ» никогда не был в целом определен. Должно ли оно ограничиваться вычислением коэффициентов корреляции или его можно рассматривать более широко как включающее PCA, кластерный анализ и другие формы анализа, которые связывают две переменные? Независимо от того, является ли ваша точка зрения узкой или ограниченной, возможно, вы согласитесь с тем, что применимо следующее описание:

Корреляция - это анализ, который делает предположения о распределении без привилегирования какой- либо переменной и использует данные, чтобы сделать более конкретные выводы об этом распределении.(X,Y)

Например, вы могли бы начать с предположения, что имеет двумерное нормальное распределение и использовать коэффициент корреляции Пирсона данных для оценки одного из параметров этого распределения. Это одна из самых узких (и самых старых) концепций корреляции.(X,Y)

В качестве другого примера вы можете предположить, что может иметь любое распределение и использовать кластерный анализ для определения k «центров». Можно было бы истолковать это как начало разрешения распределения ( X , Y ) в смесь унимодальных двумерных распределений, по одному для каждого кластера.(X,Y)k(X,Y)

Общим для всех этих подходов является симметричный подход к и Y : ни один из них не имеет преимуществ перед другим. Оба играют эквивалентные роли.ИксY

регрессия

Регрессия имеет четкое, общепризнанное определение:

Регрессия характеризует условное распределение (отклик) данного X (регрессора).YИкс

Исторически сложилось, что регрессия уходит своими корнями к открытию Гальтона (с 1885) . Что двумерные нормальные данные пользуются линейной регрессии: условное математическое ожидание Y является линейной функцией X . На одном полюсе специальной-общем спектре обычный метод наименьших квадратов (МНК) регрессии , где условное распределение Y предполагается Нормальный ( β 0 + & beta ; 1 X , сг 2 ) для фиксированных параметров β 0 , β 1 , и σ(Икс,Y)YИксY(β0+β1Икс,σ2)β0,β1,σ оценивать по данным.

На самом общем конце этого спектра находятся обобщенные линейные модели, обобщенные аддитивные модели и другие подобные им, которые ослабляют все аспекты МНК: ожидание, дисперсия и даже форма условного распределения могут изменяться нелинейно. с х . Концепция , которая выживает все это обобщение является то , что интерес остается сосредоточены на понимании того, как Y зависит от X . Эта фундаментальная асимметрия все еще там.YИксYИкс

Корреляция и регрессия

Одна очень особенная ситуация является общей для обоих подходов и часто встречается: двумерная нормальная модель. В этой модели диаграмма рассеяния данных примет классическую форму «футбол», овал или сигару: данные распределены эллиптически вокруг ортогональной пары осей.

  • Корреляционный анализ фокусируется на «силе» этих отношений в том смысле, что относительно небольшой разброс вокруг большой оси является «сильным».

  • Как отмечалось выше, регрессия на X (и, в равной степени, регрессия X на Y ) является линейной : условное ожидание ответа является линейной функцией регрессора.YИксИксY

(Стоит задуматься о четких геометрических различиях между этими двумя описаниями: они освещают основные статистические различия.)

Из пяти двумерных нормальных параметров (два средних, два спреда и еще один, который измеряет зависимость между двумя переменными), один представляет общий интерес: пятый параметр, . Это напрямую (и просто) связано сρ

  1. Коэффициент в регрессии Y на X .ИксYИкс

  2. Коэффициент в регрессии X на Y .YИксY

  3. Условные дисперсии в любой из регрессий и ( 2 ) .(1)(2)

  4. (Икс,Y)

(4)ИксY

(1)(3)

ЧАС0:ρзнак равно0YИксрβ^

Это общее приложение, которое является первым, которое каждый изучает, может затруднить понимание того, насколько различны корреляция и регрессия в их концепциях и целях. Только когда мы узнаем об их обобщениях, обнаруживаются основные различия. Было бы трудно интерпретировать GAM как дающий много информации о «корреляции», так же как было бы трудно представить кластерный анализ как форму «регрессии». Это разные семейства процедур с разными целями, каждая из которых полезна сама по себе, когда применяется соответствующим образом.


рβ^


р

1
р(Икс,Y)р

Тогда я оставлю эту банку с червями в другой раз :) Спасибо за ваш комментарий @whuber!
Стефан

3

Как следует из ответа @ whuber, существует ряд моделей и методов, которые могут попасть в зону корреляции, которые не имеют четких аналогов в мире регрессии и наоборот. Однако в целом, когда люди думают, сравнивают и сопоставляют регрессию и корреляцию, они на самом деле рассматривают две стороны одной и той же математической монеты (обычно линейная регрессия и корреляция Пирсона). Должны ли они принимать более широкое видение обоих семейств анализов - это отдельная дискуссия, с которой исследователи должны бороться, по крайней мере, минимально.

ИксY(Икс,Y)

В этом узком представлении как о регрессии, так и о корреляции последующие объяснения должны помочь выяснить, как и почему их оценки, стандартные ошибки и значения p по существу являются вариантами друг друга.

С dataframe , datявляющимся longleyнабор данных , на который ссылается выше , мы получаем следующий за cor.test. (Здесь нет ничего нового, если вы не пропустили вопрос выше и не приступили непосредственно к чтению ответов):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

И следующее для линейной модели (также как и выше):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Теперь для нового компонента к этому ответу. Во- первых, создать два новых стандартных версий Employedи Populationпеременных:

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

Вторая повторная регрессия:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Вуаля! Наклон регрессии равен коэффициенту корреляции сверху. Ответ на вопрос 1 заключается в том, что предположения для обоих тестов по существу одинаковы:

  1. Независимость наблюдений
  2. ИксY
  3. еN(0,σе2)
  4. Термины ошибок одинаково распределяются при каждом прогнозируемом значении линии регрессии (т. Е. Однородности дисперсии ошибок)

ИксY

Для вопроса 2 давайте начнем со стандартной ошибки в формуле наклона регрессии, использованной выше (подразумевается в коде R, но прямо указано ниже):

бзнак равноΣ(Икся-Икс¯)(Yя-Y¯)Σ(Икся-Икс¯)2

Поэтому, если мы хотим узнать стандартную ошибку нам нужно вычислить ее дисперсию (или V a r ( b ) ). Чтобы упростить запись, мы можем сказать, что X iбВaр(б)Иксязнак равно(Икся-Икс¯)Yязнак равно(Yя-Y¯)

Вaр(б)знак равноВaр(Σ(ИксяYя)Σ(Икся2))

Из этой формулы вы можете получить следующее сокращенное и более полезное выражение ( пошаговая ссылка приведена в этой ссылке ):

Вaр(б)знак равноσе2Σ(Икся-Икс¯)2
SЕ(б)знак равноВaр(б)знак равноσе2Σ(Икся-Икс¯)2

σе2

Я думаю, вы найдете, что если вы решите это уравнение для нестандартизированных и стандартизированных (т.е. корреляционных) линейных моделей, вы получите те же значения p и t для ваших уклонов. Оба теста основаны на обычной оценке методом наименьших квадратов и основаны на одних и тех же предположениях. На практике многие исследователи пропускают проверку предположений как для простых моделей линейной регрессии, так и для корреляций, хотя я думаю, что это еще более распространено для корреляций, поскольку многие люди не распознают их как частные случаи простых линейных регрессий. (Примечание: это не очень хорошая практика для принятия)


2
Этот ответ не относится к цитате из @whuber, приведенной в вопросе, где он утверждает, что предположения разные. Вы хотите сказать, что это утверждение было неверным?
говорит амеба: восстанови Монику

Если вы будете следовать этим уравнениям, корреляция Пирсона будет иметь те же основные предположения о простой линейной регрессии. Я могу изменить свой ответ, чтобы более четко заявить об этом.
Мэтт Барстед

1
Спасибо за ваш ответ! Я знал, что коэффициент корреляции равен наклону регрессии при стандартизации. Это было показано в ссылке 3 и 4 в моем вопросе. Я также знал об общих предположениях, которые вы перечислили, и именно поэтому комментарий @whuber заставил меня задуматься, что привело к этому вопросу. Я должен был четко указать, какие предположения мне известны - мои извинения.
Стефан

1
Я на самом деле сделал некоторые дальнейшие копания и обнаружил, что эти два сообщения ( здесь и здесь ) действительно показывают определенную стандартную ошибку для ррr <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956

0

Вот объяснение эквивалентности теста, также показывающее, как r и b связаны между собой.

http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/

Чтобы выполнить OLS, вы должны сделать https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions

Кроме того, OLS и corr требуют предположения о случайной выборке.

Построение теста corr предполагает:

У нас есть «случайная и достаточно большая выборка» из совокупности (x, y).


0

По вопросу 2

как вычислить то же значение t, используя r вместо β1

TрFр

Fзнак равнор2/К(1-р2)/(N-К)

Кзнак равно2Nзнак равноdaTaпояNTs

С ограничением, что

... отношение F нельзя использовать, если модель не имеет перехвата

Источник: Проверка гипотез в модели множественной регрессии.


1
Я оглянулся на исходное сообщение, чтобы определить, на какой вопрос вы можете отвечать. Я нашел два, пронумерованных 1 (о предположениях) и 2 (о вычислении t-значения), но ни один, кажется, не решен этим ответом. Не могли бы вы более подробно рассказать нам, на какой вопрос вы отвечаете?
whuber

1
р

1
Я думаю, я понимаю, возможно, я отвечал на вопрос в конкретном случае, а не в общем. Я думаю, что было бы полезно иметь возможность сформулировать вопрос в терминах общей нулевой и альтернативной гипотезы, чтобы иметь возможность рассмотреть этот общий случай, как я борюсь с этим.
Гарри Сэлмон

Я согласен: показ четких моделей и критериев принятия решений для корреляционного и регрессионного анализа будет очень полезен для их различения. Иногда хороший ответ состоит лишь из перефразирования или уточнения вопроса, и часто лучшие ответы начинаются с эффективных повторений вопроса, поэтому не бойтесь идти в этом направлении.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.