Чтобы уточнить мой комментарий, я использовал преподавание ковариации как меру (среднего) ко-вариации между двумя переменными, скажем, и .xy
Полезно вспомнить основную формулу (легко объяснить, не нужно говорить о математических ожиданиях для вводного курса):
cov(x,y)=1n∑i=1n(xi−x¯)(yi−y¯)
так что мы ясно видим, что каждое наблюдение может вносить положительный или отрицательный вклад в ковариацию, в зависимости от произведения их отклонения от среднего значения двух переменных, и . Обратите внимание, что я не говорю о величине здесь, но просто о знаке вклада i-го наблюдения.(xi,yi)x¯y¯
Это то, что я изобразил на следующих диаграммах. Искусственные данные были получены с использованием линейной модели (слева, ; справа, , где были взяты из гауссовского распределения с нулевым средним и , и из равномерного распределения на интервале ).y=1.2x+εy=0.1x+εεSD=2x[0,20]
Вертикальные и горизонтальные столбцы представляют среднее значение и соответственно. Это означает, что вместо «просмотра отдельных наблюдений» из источника мы можем сделать это из . Это равносильно переводу по осям X и Y. В этой новой системе координат каждое наблюдение, расположенное в верхнем правом или нижнем левом квадранте, вносит положительный вклад в ковариацию, тогда как наблюдения, расположенные в двух других квадрантах, вносят отрицательный вклад в нее. В первом случае (слева) ковариация равна 30,11, и распределение в четырех квадрантах приведено ниже:xy(0,0)(x¯,y¯)
+ -
+ 30 2
- 0 28
Понятно, что когда выше среднего, то и соответствующие (wrt. ). Глазная форма двумерного облака точек, когда значения увеличиваются, значения имеют тенденцию к увеличению. (Но помните, что мы могли бы также использовать тот факт, что существует четкая связь между ковариацией и наклоном линии регрессии, т.е. .)xiyiy¯xyb=Cov(x,y)/Var(x)
Во втором случае (справа тот же ) ковариация равна 3,54, и распределение по квадрантам является более «однородным», как показано ниже:xi
+ -
+ 18 14
- 12 16
Другими словами, существует увеличение числа случая , когда «ы и » ы не covary в том же направлении WRT. их средства.xiyi
Обратите внимание, что мы можем уменьшить ковариацию, масштабируя либо либо . На левой панели ковариация (или ) уменьшается в десять раз (3,01). Поскольку единицы измерения и разброс значений и (относительно их средних) затрудняют интерпретацию значения ковариации в абсолютном выражении, мы обычно масштабируем обе переменные по их стандартным отклонениям и получаем коэффициент корреляции. Это означает, что в дополнение к перецентрированию нашего графика рассеяния вxy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)мы также масштабируем x- и y-единицу с точки зрения стандартного отклонения, что приводит к более понятной мере линейной ковариации между и .xy