Требования этих типов вопросов кажутся мне немного странными. Вот математическая концепция / формула, но я хочу поговорить об этом в некотором контексте, полностью лишенном математических символов. Я также думаю, что следует заявить, что фактическая алгебра, необходимая для понимания формул, я думаю, должна преподаваться большинству людей до высшего образования (не требуется понимания матричной алгебры, достаточно простой алгебры).
Итак, сначала вместо того, чтобы полностью игнорировать формулу и говорить о ней в некоторых магических и эвристических аналогиях, давайте просто посмотрим на формулу и попытаемся объяснить отдельные компоненты небольшими шагами. Разница в терминах ковариации и корреляции при взгляде на формулы должна стать очевидной. Принимая во внимание, что если говорить с точки зрения аналогий и эвристики, я подозреваю, что эти два относительно простых понятия и их различия во многих ситуациях будут скрыты.
Итак, давайте начнем с формулы для выборочной ковариации (это я только что взял и принял из википедии);
1n−1∑ni=1(xi−x¯)(yi−y¯)
Чтобы ускорить процесс, давайте четко определим все элементы и операции в формуле.
- xi и - это измерения двух отдельных атрибутов одного и того же наблюденияyi
- x¯ и - это среднее (или среднее) каждого атрибутаy¯
- Для , давайте просто скажем, что это означает, что мы делим конечный результат на .1n−1n−1
- ∑ni=1 может быть для некоторых посторонним символом, поэтому, вероятно, было бы полезно объяснить эту операцию. Это просто сумма всех разделите наблюдения и представляет собой общее количество наблюдений.in
На этом этапе я мог бы представить простой пример, чтобы, так сказать, взглянуть на элементы и операции. Так, например, давайте просто составим таблицу, в которой каждая строка соответствует наблюдению (а и помечены соответствующим образом). Вероятно, можно было бы сделать эти примеры более конкретными (например, скажем, представляет возраст, а представляет вес), но для нашего обсуждения здесь это не имеет значения.xyxy
x y
---
2 5
4 8
9 3
5 6
0 8
На этом этапе, если вы чувствуете, что операция суммирования в формуле, возможно, не была полностью понята, вы можете представить ее снова в гораздо более простом контексте. Скажем просто, представьте, что - то же самое, что сказано в этом примере;∑ni=1(xi)
x
--
2
4
9
5
+ 0
--
20
Теперь этот беспорядок должен быть устранен, и мы можем ко второй части формулы . Теперь, предполагая, что люди уже знают, что означает среднее, обозначают и , и я бы сказал, лицемерно относясь к моим собственным комментариям ранее в этом посте, можно просто сослаться на среднее в терминах простая эвристика (например, середина распределения). Затем можно просто выполнить этот процесс по одной операции за раз. Утверждение(xi−x¯)(yi−y¯)x¯y¯(xi−x¯)просто исследует отклонения / расстояние между каждым наблюдением и среднее значение всех наблюдений для этого конкретного атрибута. Следовательно, когда наблюдение находится дальше от среднего значения, этой операции будет присвоено более высокое значение. Затем можно вернуться к приведенной таблице примеров и просто продемонстрировать операцию над вектором наблюдений.x
x x_bar (x - x_bar)
2 4 -2
4 4 0
9 4 5
5 4 1
0 4 -4
Операция такая же для вектора , но только для подкрепления вы можете также представить эту операцию.y
y y_bar (y - y_bar)
5 6 -1
8 6 2
3 6 -3
6 6 0
8 6 2
Теперь термины и не должны быть неоднозначными, и мы можем перейти к следующей операции, умножив эти результаты вместе, . Как указывает Ганг в комментариях, это часто называют перекрестным произведением (возможно, полезным примером для подведения итогов, если кто-то вводил базовую матричную алгебру для статистики).(xi−x¯)(yi−y¯)(xi−x¯)⋅(yi−y¯)
Обратите внимание на то, что происходит при умножении, если два наблюдения оба находятся на большом расстоянии выше среднего, результирующее наблюдение будет иметь еще большее положительное значение (то же самое верно, если оба наблюдения находятся на большом расстоянии ниже среднего, так как умножение двух негативов равно положительному). Также обратите внимание, что если одно наблюдение намного выше среднего, а другое значительно ниже среднего, результирующее значение будет большим (в абсолютном выражении) и отрицательным (в положительное время отрицательное равно отрицательному числу). В заключение отметим, что когда значение очень близко к среднему для любого наблюдения, умножение двух значений приведет к небольшому числу. Опять же, мы можем просто представить эту операцию в виде таблицы.
(x - x_bar) (y - y_bar) (x - x_bar)*(y - y_bar)
-2 -1 2
0 2 0
5 -3 -15
1 0 0
-4 2 -8
Теперь, если в комнате есть какие-то статистики, они должны кипеть в ожидании. Мы можем видеть все отдельные элементы того, что такое ковариация и как она рассчитывается. Теперь все, что нам нужно сделать, это подвести итоги в последнем результате в предыдущей таблице, разделить на и вуаля , ковариация больше не должна быть мистической (все с определением только одного греческого символа).n−1
(x - x_bar)*(y - y_bar)
-----------------------
2
0
-15
0
+ -8
-----
-21
-21/(5-1) = -5.25
В этот момент вы можете уточнить, откуда исходит 5, но это должно быть так же просто, как вернуться к таблице и подсчитать количество наблюдений (давайте снова оставим разницу между выборкой и популяцией в другое время).
Теперь ковариация сама по себе не говорит нам много (она может, но на данном этапе нет необходимости приводить какие-либо интересные примеры, не прибегая к волшебным, неопределенным ссылкам на аудиторию). В хорошем сценарии вам не нужно продавать, почему мы должны заботиться о том, что такое ковариация, в других обстоятельствах вы можете просто надеяться, что ваша аудитория захвачена и примет ваше слово. Но, продолжая развивать разницу между тем, что такое ковариация и какова корреляция, мы можем просто вернуться к формуле корреляции. Чтобы предотвратить греческий символ фобии, просто скажите, что - это общий символ, используемый для представления корреляции.ρ
ρ=Cov(x,y)Var(x)Var(y)√
Опять же, повторюсь, числитель в предыдущей формуле - это просто ковариация, как мы только что определили, а знаменатель - это квадратный корень из произведения дисперсии каждой отдельной серии. Если вам нужно определить саму дисперсию, вы можете просто сказать, что дисперсия - это то же самое, что и ковариация ряда с самим собой (т. ). Применимы все те же понятия, которые вы ввели с ковариацией (т. Е. Если ряд имеет много значений далеко от среднего значения, он будет иметь высокую дисперсию). Здесь следует отметить, что ряд не может также иметь отрицательную дисперсию (что должно логически следовать из ранее представленной математики).Cov(x,x)=Var(x)
Таким образом, единственные новые компоненты, которые мы ввели, находятся в знаменателе, . Таким образом, мы делим ковариацию, которую мы только что рассчитали, на произведение дисперсий каждой серии. Можно было бы остановиться на том, почему деление на всегда будет приводить к значению от -1 до 1, но я подозреваю, что неравенство Коши-Шварца следует исключить из повестки дня для это обсуждение. Итак, еще раз, я лицемер и прибегаю к некоторым, поверьте мне на слово , но на этом этапе мы можем представить все причины, по которым мы используем коэффициент корреляции. Затем можно связать эти уроки математики с эвристикой, которая была дана в других утверждениях, таких как ответ Питера Флома.Var(x)Var(y)Var(x)Var(y)−−−−−−−−−−−√на один из других вопросов. Хотя это критиковалось за представление концепции с точки зрения причинно-следственных связей, этот урок также должен быть в повестке дня.
Я понимаю, что в некоторых обстоятельствах такой уровень лечения не подходит. Сенат нуждается в исполнительном резюме . В этом случае, вы можете вернуться к простой эвристике, которую люди использовали в других примерах, но Рим не был построен за один день. И сенату, который просит дать резюме, если у вас так мало времени, возможно, вам следует просто поверить мне на слово и обойтись без формальностей аналогий и ключевых моментов.