Как бы вы объяснили ковариацию тому, кто понимает только среднее?


207

... предполагая, что я могу расширить их знания об отклонениях интуитивно (интуитивно понимая «дисперсию» ) или сказав: это среднее расстояние между значениями данных и «средним» - и поскольку дисперсия находится в квадрате единицы, мы берем квадратный корень, чтобы сохранить единицы, и это называется стандартным отклонением.

Давайте предположим, что многое сформулировано и (надеюсь) понято «получателем». Теперь, что такое ковариация и как можно объяснить это простым английским языком без использования каких-либо математических терминов / формул? (Т.е. интуитивное объяснение.;)

Обратите внимание: я знаю формулы и математику, лежащую в основе концепции. Я хочу быть в состоянии «объяснить» то же самое в легкой для понимания форме, не включая математику; то есть, что вообще означает «ковариация»?


1
@ Сиань - «как» вы бы точно определили это с помощью простой линейной регрессии ? Я бы очень хотел знать ...
PhD

3
Предполагая, что у вас уже есть диаграмма рассеяния двух ваших переменных, x против y, с началом координат в (0,0), просто нарисуйте две линии при x = среднее (x) (по вертикали) и y = среднее (x) (по горизонтали): используя эту новую систему координат (начало координат в (среднее (x), среднее (y)), поместите знак «+» в верхнем правом и нижнем левом квадрантах, знак «-» в двух других квадрантах; Вы получили знак ковариации, что в основном и говорит @Peter . Масштабирование x- и y-единиц (по SD) приводит к более интерпретируемой сводке, как обсуждалось в следующем потоке .
chl

1
@chl - не могли бы вы опубликовать это в качестве ответа и, возможно, использовать графику, чтобы изобразить это!
PhD

Я нашел видео на этом сайте, чтобы помочь мне, так как я предпочитаю изображения, а не абстрактные пояснения. Веб-сайт с видео Конкретно это изображение :! [Введите описание изображения здесь ] ( i.stack.imgur.com/xGZFv.png )
Карл Моррисон

Ответы:


375

Иногда мы можем «расширять знания» необычным или другим подходом. Мне бы хотелось, чтобы этот ответ был доступен для детских садов, а также повеселиться, чтобы все достали ваши карандаши!

Учитывая парные данные, нарисуйте их диаграмму рассеяния. (Младшим ученикам может понадобиться учитель, чтобы создать это для них. :-) Каждая пара точек , на этом графике определяет прямоугольник: это самый маленький прямоугольник, стороны которого параллельны оси, содержащие эти точки. Таким образом, точки находятся либо в верхнем правом и нижнем левом углах («положительное» отношение), либо в верхнем левом и нижнем правом углах («отрицательное» отношение).(x,y)(xi,yi)(xj,yj)

Нарисуйте все возможные такие прямоугольники. Раскрасьте их прозрачно, сделав положительные прямоугольники красными (скажем), а отрицательные прямоугольники «анти-красными» (синие). Таким образом, везде, где прямоугольники перекрываются, их цвета либо улучшаются, когда они одинаковы (синий и синий, либо красный и красный), либо отменяются, если они разные.

Положительные и отрицательные прямоугольники

( На этой иллюстрации положительного (красного) и отрицательного (синего) прямоугольника перекрытие должно быть белым; к сожалению, это программное обеспечение не имеет истинного «анти-красного» цвета. Перекрытие серое, поэтому оно затемнит сюжет, но в целом чистое количество красного цвета правильное. )

Теперь мы готовы к объяснению ковариации.

Ковариация - это чистое количество красного на графике (рассматривая синий как отрицательные значения).

Вот несколько примеров с 32 бинормальными точками, взятыми из распределений с заданными ковариациями, упорядоченными от самых отрицательных (самые голубые) до самых положительных (самые красные).

Ковариационные участки, обновлено 2019

Они нарисованы на общих осях, чтобы сделать их сопоставимыми. Прямоугольники слегка очерчены, чтобы помочь вам увидеть их. Это обновленная (2019 г.) версия оригинала: она использует программное обеспечение, которое корректно отменяет красный и голубой цвета в перекрывающихся прямоугольниках.

Давайте выведем некоторые свойства ковариации. Понимание этих свойств будет доступно любому, кто на самом деле нарисовал несколько прямоугольников. :-)

  • Билинейность. Поскольку количество красного цвета зависит от размера графика, ковариация прямо пропорциональна шкале на оси X и шкале на оси Y.

  • Корреляция. Ковариация увеличивается, когда точки приближаются к наклонной линии вверх, и уменьшается, когда точки приближаются к наклонной линии вниз. Это связано с тем, что в первом случае большинство прямоугольников являются положительными, а во втором случае большинство отрицательных.

  • Связь с линейными ассоциациями. Поскольку нелинейные ассоциации могут создавать смеси положительных и отрицательных прямоугольников, они приводят к непредсказуемым (и не очень полезным) ковариациям. Линейные ассоциации могут быть полностью интерпретированы с помощью двух предыдущих характеристик.

  • Чувствительность к выбросам. Геометрический выброс (одна точка, стоящая в стороне от массы) создаст много больших прямоугольников вместе со всеми остальными точками. Одно это может создать чистое положительное или отрицательное количество красного в общей картине.

Кстати, это определение ковариации отличается от обычного только универсальной константой пропорциональности (независимо от размера набора данных). Математически склонный не будет иметь проблем с выполнением алгебраической демонстрации того, что приведенная здесь формула всегда в два раза больше обычной ковариации.


92
+1 Ого Это даже работает для объяснения ковариации тем, кто уже думал, что знал, что это было.
Аарон

7
+1 Мне очень нравится читать твой ответ. Я нарисую несколько прямоугольников, и пусть мой сын нарисует их :)
chl

18
Теперь, если бы только все вводные статистические понятия могли быть представлены студентам таким ясным образом ...
MannyG

4
Это прекрасно. И очень очень ясно.
Бенджамин Мако Хилл

4
@fcoppens Действительно, есть традиционное объяснение, которое исходит из того, что вы предлагаете. Я подумал об этом, потому что я не хотел вводить ненужную идею, а именно, конструировать центроид . Это сделало бы объяснение недоступным для пятилетнего ребенка с коробкой цветных карандашей. Некоторые из выводов, которые я сделал в конце, также не были бы немедленными. Например, уже не было бы так очевидно, что ковариация чувствительна к определенным видам выбросов. (x¯,y¯)
whuber

61

Чтобы уточнить мой комментарий, я использовал преподавание ковариации как меру (среднего) ко-вариации между двумя переменными, скажем, и .xy

Полезно вспомнить основную формулу (легко объяснить, не нужно говорить о математических ожиданиях для вводного курса):

cov(x,y)=1ni=1n(xix¯)(yiy¯)

так что мы ясно видим, что каждое наблюдение может вносить положительный или отрицательный вклад в ковариацию, в зависимости от произведения их отклонения от среднего значения двух переменных, и . Обратите внимание, что я не говорю о величине здесь, но просто о знаке вклада i-го наблюдения.(xi,yi)x¯y¯

Это то, что я изобразил на следующих диаграммах. Искусственные данные были получены с использованием линейной модели (слева, ; справа, , где были взяты из гауссовского распределения с нулевым средним и , и из равномерного распределения на интервале ).y=1.2x+εy=0.1x+εεSD=2x[0,20]

введите описание изображения здесь

Вертикальные и горизонтальные столбцы представляют среднее значение и соответственно. Это означает, что вместо «просмотра отдельных наблюдений» из источника мы можем сделать это из . Это равносильно переводу по осям X и Y. В этой новой системе координат каждое наблюдение, расположенное в верхнем правом или нижнем левом квадранте, вносит положительный вклад в ковариацию, тогда как наблюдения, расположенные в двух других квадрантах, вносят отрицательный вклад в нее. В первом случае (слева) ковариация равна 30,11, и распределение в четырех квадрантах приведено ниже:xy(0,0)(x¯,y¯)

   +  -
+ 30  2
-  0 28

Понятно, что когда выше среднего, то и соответствующие (wrt. ). Глазная форма двумерного облака точек, когда значения увеличиваются, значения имеют тенденцию к увеличению. (Но помните, что мы могли бы также использовать тот факт, что существует четкая связь между ковариацией и наклоном линии регрессии, т.е. .)xiyiy¯xyb=Cov(x,y)/Var(x)

Во втором случае (справа тот же ) ковариация равна 3,54, и распределение по квадрантам является более «однородным», как показано ниже:xi

   +  -
+ 18 14
- 12 16

Другими словами, существует увеличение числа случая , когда «ы и » ы не covary в том же направлении WRT. их средства.xiyi

Обратите внимание, что мы можем уменьшить ковариацию, масштабируя либо либо . На левой панели ковариация (или ) уменьшается в десять раз (3,01). Поскольку единицы измерения и разброс значений и (относительно их средних) затрудняют интерпретацию значения ковариации в абсолютном выражении, мы обычно масштабируем обе переменные по их стандартным отклонениям и получаем коэффициент корреляции. Это означает, что в дополнение к перецентрированию нашего графика рассеяния вxy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)мы также масштабируем x- и y-единицу с точки зрения стандартного отклонения, что приводит к более понятной мере линейной ковариации между и .xy


28

Ковариантность - это мера того, насколько одна переменная возрастает, когда повышается другая.


1
Всегда ли это в одном и том же направлении? Кроме того, применимо ли это и к обратным отношениям (т. Е. Когда один поднимается, другой падает)?
PhD

4
@nupul Ну, противоположность «вверх» это «вниз», а противоположность «положительный» является «отрицательный». Я пытался дать одно предложение ответа. Ваш гораздо более полный. Даже ваше «как две переменные изменяются вместе» более полно, но, думаю, немного сложнее для понимания.
Питер Флом

1
+1 за размещение в одном простом предложении, но разве это не корреляция? Я имею в виду, что я знаю больше cov => больше corr, но с этим предложением я бы ожидал что-то вроде «80%» в качестве ответа, что соответствует corr = 0,8. Разве cov также не описывает дисперсию в данных? то есть. «Ковариантность пропорциональна росту одной переменной при увеличении другой, а также пропорциональности распределению данных по обеим переменным», или что-то еще?
naught101

4
Правильно, Питер, поэтому @ naught101 сделал этот комментарий: ваше описание звучит как скорость изменения, поэтому единицы измерения будут [единицы одной переменной] / [единицы другой переменной] (если мы будем интерпретировать его как производную ) или просто будет [единицами одной переменной] (если мы будем интерпретировать как чистую разницу). Это не ковариация (чья единица измерения является произведением единиц для двух переменных) и корреляция (которая не имеет единиц).
whuber

1
@nbro Рассмотрим любой конкретный пример: предположим, вы знаете, что ковариация переменных и равна например. Даже при самом щедром понимании понятий «переменная» и «идти вверх», не могли бы вы сказать, исходя только из этой информации, насколько увеличивается , когда увеличивается на определенную величину? Ответ - нет: единственная информация, которую он дает вам, - это то, что будет иметь тенденцию к увеличению. В этом посте Питер перепутал ковариацию с коэффициентом регрессии (которых, кстати, их два, и они обычно разные). XY1,YXY
whuber

12

Я отвечаю на свой вопрос, но я подумал, что было бы здорово, если бы люди, перебирающие этот пост, ознакомились с некоторыми объяснениями на этой странице .

Я перефразирую один из очень хорошо сформулированных ответов (пользователь 'Zhop'). Я делаю это на тот случай, если этот сайт закрывается или страница закрывается, когда кто-то через некоторое время получает доступ к этому сообщению;)

Ковариация является мерой того, насколько две переменные изменяются вместе. Сравните это с дисперсией, которая является просто диапазоном, в котором изменяется один показатель (или переменная).

Изучая социальные модели, вы можете выдвинуть гипотезу о том, что более состоятельные люди, вероятно, будут более образованными, поэтому вы попытаетесь увидеть, насколько тесно взаимосвязаны показатели богатства и образования. Вы бы использовали меру ковариации, чтобы определить это.

...

Я не уверен, что вы имеете в виду, когда спрашиваете, как это относится к статистике. Это одна мера учил во многих классах статистики. Вы имели в виду, когда вы должны его использовать?

Вы используете его, когда хотите увидеть, насколько две или более переменные изменяются относительно друг друга.

Подумайте о людях в команде. Посмотрите, как они различаются по географическому расположению по сравнению друг с другом. Когда команда играет или тренируется, расстояние между отдельными членами очень мало, и мы бы сказали, что они находятся в одном месте. И когда их местоположение меняется, оно меняется для всех людей вместе (скажем, поездка на автобусе в игру). В этой ситуации мы бы сказали, что они имеют высокий уровень ковариации. Но когда они не играют, то коэффициент ковариации, вероятно, будет довольно низким, потому что они все собираются в разных местах с разной скоростью.

Таким образом, вы можете предсказать местоположение одного члена команды, основываясь на местоположении другого члена команды, когда они практикуются или играют в игру с высокой степенью точности. Я полагаю, что ковариационное измерение будет близко к 1. Но когда они не тренируются или не играют, у вас будет гораздо меньше шансов предсказать местоположение одного человека на основе местоположения члена команды. Вероятно, он будет близок к нулю, хотя и не равен нулю, поскольку иногда члены команды будут друзьями и могут вместе ходить в свободное время.

Однако, если вы случайно выбрали людей в Соединенных Штатах и ​​попытались использовать одно из них, чтобы предсказать местоположение другого, вы, вероятно, обнаружите, что ковариация равна нулю. Другими словами, нет абсолютно никакой связи между местоположением одного случайно выбранного человека в США и местоположением другого.

Добавление еще одного (от CatofGrey), которое помогает увеличить интуицию:

В теории вероятностей и статистике ковариация - это мера того, насколько две случайные переменные изменяются вместе (в отличие от дисперсии, которая измеряет, насколько изменяется одна переменная).

Если две переменные имеют тенденцию изменяться вместе (то есть, когда одна из них выше ожидаемого значения, тогда другая переменная также имеет тенденцию быть выше ожидаемого значения), то ковариация между двумя переменными будет положительной. С другой стороны, если одна из них выше ожидаемого значения, а другая переменная имеет тенденцию быть ниже ожидаемого значения, то ковариация между двумя переменными будет отрицательной.

Эти два вместе заставили меня понять ковариацию, поскольку я никогда не понимал это прежде! Просто удивительно!!


15
Хотя эти описания качественно наводят на размышления, к сожалению, они не являются полными: они не отличают ковариацию от корреляции (первое описание, по-видимому, смущает оба фактора) и не дают фундаментального предположения о линейном ко-вариации. Кроме того, ни один из них не затрагивает важный аспект, согласно которому ковариация зависит (линейно) от масштаба каждой переменной.
whuber

@whuber - согласился! И, следовательно, не пометил мой как ответ :) (пока нет;)
PhD

12

Мне очень нравится ответ Уубер, поэтому я собрал еще несколько ресурсов. Ковариация описывает как степень распространения переменных, так и характер их отношений.

Ковариация использует прямоугольники, чтобы описать, насколько далеко наблюдение от среднего значения на графике рассеяния:

  • Если прямоугольник имеет длинные стороны и большую ширину или короткие стороны и короткую ширину, это свидетельствует о том, что две переменные перемещаются вместе.

  • Если у прямоугольника есть две стороны, которые являются относительно длинными для этой переменной, и две стороны, которые являются относительно короткими для другой переменной, это наблюдение обеспечивает доказательство того, что переменные не очень хорошо движутся вместе.

  • Если прямоугольник находится во 2-м или 4-м квадранте, то, когда одна переменная больше среднего, другая меньше среднего. Увеличение одной переменной связано с уменьшением другой.

Я нашел отличную визуализацию этого на http://sciguides.com/guides/covariance/. Это объясняет, что такое ковариация, если вы просто знаете среднее.


7
+1 Хорошее объяснение (особенно это вводное резюме из одного предложения). Ссылка интересная. Поскольку у него нет архива на машине Wayback, скорее всего, он новый. Поскольку он так близко соответствует моему (трехлетнему) ответу, вплоть до выбора красного для положительных и синего для отрицательных отношений, я подозреваю, что это (не приписанная) производная материала на этом сайте.
whuber

4
Ссылка "крутая визуализация" умерла ...
whuber

1
@MSIS Это невозможно выяснить, потому что на круге очень много возможных распределений. Но если вы говорите о равномерном распределении, вычислять нечего, потому что (насколько я помню, отметив в вашей ветке на stats.stackexchange.com/q/414365/919 ) коэффициент корреляции должен равняться собственному отрицательному значению QED.
whuber

1
@MSIS Если «метод» означает «обращение к симметрии», ответ заключается в том, что он будет работать, но результат зависит от того, как распределенНапример, если - случайная величина с симметричным распределением около с конечным четвертым моментом, то и должны быть некоррелированными. В качестве примера, если имеет распределение, симметричное относительно то ничего общего нельзя сказать о корреляции и действительно, это может быть любое значение между и включительно. XX0XX2X1,XX2:11
whuber

1
@MSIS Обычно, при отсутствии явного распределения и почти всегда в чисто математическом контексте, предполагается, что подразумевается равномерное распределение. В случае геометрического круга, параметризованного углом основные события имеют вид и их вероятности равныa < α b ( ( b - a ) mod 2 π ) / ( 2 π ) .α,a<αb((ba)mod2π)/(2π).
uber

10

Вот еще одна попытка объяснить ковариацию с помощью картинки. Каждая панель на рисунке ниже содержит 50 точек, смоделированных из двумерного распределения с корреляцией между x & y 0,8 и отклонениями, как показано на метках строк и столбцов. Ковариация показана в правом нижнем углу каждой панели.

Разные ковариации, все с корреляцией = 0,8

Любой, кто заинтересован в улучшении этого ... вот код R:

library(mvtnorm)

rowvars <- colvars <- c(10,20,30,40,50)

all <- NULL
for(i in 1:length(colvars)){
  colvar <- colvars[i]
  for(j in 1:length(rowvars)){
    set.seed(303)  # Put seed here to show same data in each panel
    rowvar <- rowvars[j]
    # Simulate 50 points, corr=0.8
    sig <- matrix(c(rowvar, .8*sqrt(rowvar)*sqrt(colvar), .8*sqrt(rowvar)*sqrt(colvar), colvar), nrow=2)
    yy <- rmvnorm(50, mean=c(0,0), sig)
    dati <- data.frame(i=i, j=j, colvar=colvar, rowvar=rowvar, covar=.8*sqrt(rowvar)*sqrt(colvar), yy)
    all <- rbind(all, dati)
  }
}
names(all) <- c('i','j','colvar','rowvar','covar','x','y')
all <- transform(all, colvar=factor(colvar), rowvar=factor(rowvar))
library(latticeExtra)
useOuterStrips(xyplot(y~x|colvar*rowvar, all, cov=all$covar,
                      panel=function(x,y,subscripts, cov,...){
                        panel.xyplot(x,y,...)
                        print(cor(x,y))
                        ltext(14,-12, round(cov[subscripts][1],0))
                      }))

10

Мне понравился ответ @whuber - до этого у меня была лишь смутная идея о том, как можно представить визуализацию ковариации, но эти прямоугольные графики гениальны.

Однако, поскольку формула для ковариации включает в себя среднее значение, а в первоначальном вопросе ОП говорилось, что «получатель» действительно понимает концепцию среднего, я подумал, что у меня будет трещина в адаптации прямоугольных графиков @ whuber для сравнения каждой точки данных с означает х и у, так как это больше представляет то, что происходит в формуле ковариации. Я думал, что на самом деле это выглядит довольно интуитивно: «Ковариационные графики для переменных с разными корреляциями»

Синяя точка в середине каждого графика означает среднее значение x (x_mean) и среднее значение y (y_mean).

Прямоугольники сравнивают значения x - x_mean и y - y_mean для каждой точки данных.

Прямоугольник зеленый, если либо:

  • и х и у больше, чем их соответствующие средства
  • и х и у меньше, чем их соответствующие средства

Прямоугольник красный, если либо:

  • x больше, чем x_mean, но y меньше, чем y_mean
  • x меньше x_mean, но y больше y_mean

Ковариация (и корреляция) может быть как сильно отрицательной, так и сильно положительной. Когда на графике преобладает один цвет больше, чем другой, это означает, что данные в основном следуют последовательному шаблону.

  • Если на графике больше зеленого, чем красного, это означает, что y обычно увеличивается при увеличении x.
  • Если на графике больше красного, чем зеленого, это означает, что y обычно уменьшается при увеличении x.
  • Если на графике не преобладает тот или иной цвет, это означает, что нет особой картины того, как x и y связаны друг с другом.

Фактическое значение ковариации для двух разных переменных x и y - это, как правило, сумма всех зеленых областей за вычетом всей красной области, затем деленная на общее количество точек данных - фактически среднее значение «зеленость-против-красная» графика ,

Как это звучит / выглядит?


3

Дисперсия - это степень, с которой случайное отклонение изменяется относительно ожидаемого значения. Из-за стохастического характера основного процесса, который представляет случайная величина.

Ковариантность - это степень изменения двух разных случайных величин относительно друг друга. Это может произойти, когда случайные величины управляются одним и тем же базовым процессом или его производными. Либо процессы, представленные этими случайными переменными, влияют друг на друга, либо это один и тот же процесс, но одна из случайных переменных является производной от другой.


2

Я бы просто объяснил корреляцию, которая довольно интуитивна. Я бы сказал: «Корреляция измеряет силу взаимосвязи между двумя переменными X и Y. Корреляция находится между -1 и 1 и будет близка к 1 по абсолютной величине, когда связь сильная. Ковариация - это просто корреляция, умноженная на стандартные отклонения две переменные. Таким образом, в то время как корреляция безразмерна, ковариация находится в произведении единиц для переменной X и переменной Y.


10
Это кажется неадекватным, потому что нет упоминания о линейности. X и Y могут иметь сильные квадратичные отношения, но иметь нулевую корреляцию.
mark999

0

Двумя переменными, которые будут иметь высокую положительную ковариацию (корреляцию), будет количество людей в комнате и количество пальцев в комнате. (По мере того, как число людей увеличивается, мы ожидаем, что количество пальцев также увеличится.)

То, что может иметь отрицательную ковариацию (корреляцию), будет возраст человека и количество волосяных фолликулов на голове. Или количество прыщей на лице человека (в определенной возрастной группе) и сколько у них свиданий в неделю. Мы ожидаем, что люди с большим количеством лет будут иметь меньше волос, и люди с большим количеством прыщей будут иметь меньше дат .. Это отрицательно коррелирует.


2
Ковариация не обязательно взаимозаменяема с корреляцией - первая сильно зависит от единицы. Корреляция - это число от -1 до 1, скаляр без единицы, представляющий «силу» ковариации IMO, и это не ясно из вашего ответа
кандидат наук

В качестве ответа подразумевается, что ковариация и корреляция могут использоваться взаимозаменяемо.
sapo_cosmico
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.