Интуиция по определению ковариации


11

Я пытался лучше понять Ковариацию двух случайных переменных и понять, как первый человек, который об этом подумал, пришел к определению, которое обычно используется в статистике. Я пошел в Википедию, чтобы понять это лучше. Из статьи видно, что хороший показатель-кандидат или величина для должны обладать следующими свойствами:Cov(X,Y)

  1. Он должен иметь положительный знак, когда две случайные переменные похожи (то есть, когда одна увеличивается, другая увеличивается, а когда одна уменьшается, другая тоже).
  2. Мы также хотим, чтобы он имел отрицательный знак, когда две случайные переменные противоположно похожи (т.е. когда одна увеличивается, другая случайная переменная имеет тенденцию к уменьшению)
  3. Наконец, мы хотим, чтобы эта ковариационная величина была равна нулю (или, возможно, чрезвычайно мала?), Когда две переменные не зависят друг от друга (т.е. они не изменяются по отношению друг к другу).

Из приведенных выше свойств мы хотим определить . Мой первый вопрос: мне не совсем понятно, почему удовлетворяет этим свойствам. От свойств, которые мы имеем, я ожидал бы, что больше подобного производному уравнения будет идеальным кандидатом. Например, что-то вроде «если изменение в X положительное, то изменение в Y также должно быть положительным». Кроме того, почему «правильная» вещь делает разницу от среднего?Cov(X,Y)Cov(X,Y)=E[(XE[X])(YE[Y])]

Более касательный, но все же интересный вопрос: есть ли другое определение, которое могло бы удовлетворить эти свойства и было бы значимым и полезным? Я спрашиваю об этом, потому что, кажется, никто не задается вопросом, почему мы используем это определение в первую очередь (кажется, что оно «всегда было таким», что, на мой взгляд, является ужасной причиной и мешает научным и математическое любопытство и мышление). Является ли принятое определение «лучшим» определением, которое мы могли бы иметь?


Вот мои мысли о том, почему принятое определение имеет смысл (оно будет только интуитивным аргументом):

Позвольте ΔX быть некоторой разницей для переменной X (то есть она изменилась от некоторого значения к некоторому другому значению через некоторое время). Аналогично для определения ΔY .

Для одного случая во времени мы можем вычислить, связаны ли они или нет, выполнив:

sign(ΔXΔY)

Это несколько мило! Для одного случая во времени он удовлетворяет свойствам, которые мы хотим. Если они оба увеличиваются вместе, то в большинстве случаев вышеуказанное количество должно быть положительным (и, аналогично, когда они противоположно похожи, оно будет отрицательным, поскольку будет иметь противоположные знаки).Delta

Но это только дает нам количество, которое мы хотим для одного экземпляра во времени, и, поскольку они являются rv, мы могли бы переопределить их, если бы решили основать отношение двух переменных на основе только одного наблюдения. Тогда почему бы не принять это ожидание, чтобы увидеть «средний» продукт различий.

sign(E[ΔXΔY])

Что в среднем должно отражать средние отношения, как определено выше! Но единственная проблема этого объяснения состоит в том, чем мы измеряем эту разницу? Что, кажется, решается путем измерения этой разницы от среднего значения (что по какой-то причине является правильным решением).

Я предполагаю, что главная проблема, которую я имею с определением, принимает разницу от среднего значения . Я пока не могу оправдать это для себя.


Интерпретация знака может быть оставлена ​​для другого вопроса, так как это, кажется, более сложная тема.


2
Самой отправной точкой может быть концепция или интуитивное представление о перекрестном продукте (ковариация является лишь его расширением). Если у нас есть две серии чисел X и Y одинаковой длины, и мы определяем суммированный перекрестный продукт как Sum (Xi * Yi), то он максимизируется, если оба ряда были отсортированы в одном и том же порядке, и минимизируется, если один серии были отсортированы по возрастанию, а остальные по убыванию.
ttnphns

Отличие от среднего значения не является фундаментальной проблемой. Важна только величина, отличие от источника; по некоторым причинам естественно и удобно указать происхождение в среднем.
ttnphns

@ttnphns Вы говорите, что если они коваризуются вместе, то ковариация должна быть "максимизирована", и если они ковариально противоположны, она должна быть настолько отрицательной, насколько это возможно? (то есть сведено к минимуму) Почему тогда оно не определяется как ожидание перекрестного продукта?
Чарли Паркер

Ковариация естественна для переменных без внутреннего происхождения. Затем мы вычисляем среднее в качестве источника (среднее имеет хорошие свойства, не относящиеся к теме ассоциации, поэтому оно обычно выбирается). Если происхождение присуще и имеет смысл, разумно придерживаться его, тогда «ковариация» (co-outburst) не будет симметричной, но кого это волнует?
ttnphns

1
Этот ответ дает очень приятную интуицию, касающуюся ковариации.
Glen_b

Ответы:


10

Представьте, что мы начинаем с пустой стопки чисел. Затем мы начинаем рисовать пары из их совместного распределения. Может произойти одно из четырех:(X,Y)

  1. Если X и Y больше, чем их соответствующие средние значения, мы говорим, что пара похожа, и поэтому мы помещаем положительное число в стек.
  2. Если X и Y меньше, то их соответствующие средние значения говорят, что пара похожа и положили положительное число в стек.
  3. Если X больше среднего, а Y меньше среднего, мы говорим, что пара не одинакова и помещает в стек отрицательное число.
  4. Если X меньше среднего, а Y больше среднего, мы говорим, что пара не одинакова и помещает в стек отрицательное число.

Затем, чтобы получить общую меру (несоответствия) X и Y, мы складываем все значения чисел в стеке. Положительная сумма предполагает, что переменные движутся в одном и том же направлении одновременно. Отрицательная сумма говорит о том, что переменные перемещаются в противоположных направлениях чаще, чем нет. Нулевая сумма говорит о том, что знание направления одной переменной мало что говорит о направлении другой.

Важно думать о «больше, чем в среднем», а не только о «большом» (или «положительном»), потому что любые две неотрицательные переменные будут тогда оцениваться как схожие (например, размер следующей автомобильной аварии на M42 и количество билетов, купленных на вокзале Паддингтон завтра).

Формула ковариации является формализацией этого процесса:

Cov(X,Y)=E[(XE[X])(YE[Y])]

Использование распределения вероятностей вместо симуляции Монте-Карло и указание размера числа, которое мы помещаем в стек.


Вау, это очень хороший ответ. Только одна последняя вещь, вы возражаете , добавив более подробную информацию о оправданию о том, почему он должен быть разница образуют среднее ? Почему не какая-то другая ценность? Почему это имеет смысл? Я думаю, что это главное, что мешает мне полностью усвоить это определение. Спасибо, кстати!
Чарли Паркер

Спасибо. Предположим, есть два больших грузовика в двух разных странах. Теперь большие грузовики имеют тенденцию перевозить большие грузы. Если бы мы добавляли положительное число в стек каждый раз, когда каждый грузовик перевозил большую нагрузку, мы в конечном итоге должны были сказать, что поведение двух грузовиков было очень похожим. Но на самом деле размер груза, перевозимого одним грузовиком, не связан с размером груза, перевозимого другим грузовиком в конкретный момент времени. Они просто оказываются большими грузовиками. Таким образом, наша мера сходства не будет полезна. Вот почему мы должны думать о «больше, чем в среднем».
предположения,

Извините, это немного поздно, но я решил пересмотреть эту тему, и у меня все еще есть вопрос о том, почему она отличается от среднего значения. Важна ли разница от их соответствующих средств, потому что каждая случайная величина X и Y может происходить из разных масштабов? То есть, чтобы иметь представление о том, что такое «большой», он различен в зависимости от того, в каком базовом масштабе они находятся. Таким образом, чтобы преодолеть эту проблему масштаба мы сравниваем ее с соответствующими средствами?
Чарли Паркер

1

Вот мой интуитивный способ смотреть на это без каких-либо уравнений.

  1. Это обобщение дисперсии для более высоких измерений. Мотивация, вероятно, возникла из-за попыток описать, как ведут себя данные. К первому заказу у нас есть его местоположение - среднее. Во втором порядке мы имеем разброс - ковариацию.

    Я предполагаю, что главная проблема, которую я имею с определением, принимает разницу от среднего значения. Я пока не могу оправдать это для себя.

    разброс оценивается относительно центра распределения. Самым основным определением дисперсии является «среднее отклонение от среднего». следовательно, вы должны вычесть среднее значение и в случае Ковариации.

  2. Другой основной мотив, который приходит на ум, - это необходимость определения способа измерения расстояния между случайными переменными. Расстояние Махаланобиса и ковариация идут рука об руку: учитывая гауссово распределение и два других образца, которые имеют равное евклидово расстояние до среднего распределения. Если бы я спросил вас, какой из образцов, скорее всего, будет выбросом, который не был взят из гауссовского распределения, евклидово расстояние не подойдет. Расстояние Махаланобиса имеет единственное заметное отличие от евклидова расстояния: оно учитывает разброс (ковариантность) распределения. Это позволяет обобщать расстояние до случайных величин.


1
  1. Наконец, мы хотим, чтобы эта ковариационная величина была равна нулю (или, возможно, чрезвычайно мала?), Когда две переменные не зависят друг от друга (т.е. они не изменяются по отношению друг к другу).

(12)XYE[XY]E[XY]=14X^=1000XY^=1000YE[X^Y^]=250,000(X,Y)=E[(XE[X])(YE[Y])]

  1. Мы также хотим, чтобы он имел отрицательный знак, когда две случайные переменные противоположно похожи (т.е. когда одна увеличивается, другая случайная переменная имеет тенденцию к уменьшению)

XY=1XE[XY]=0(X,Y)=E[(XE[X])(YE[Y])]

  1. Он должен (sic) иметь положительный знак, когда две случайные переменные похожи (т. Е. Когда одна увеличивается, другая делает, а когда одна уменьшается, другая тоже).

XY=X1E[XY](X,Y)=E[(XE[X])(YE[Y])] дает положительное значение, как вы хотите.

X=Y


1

Я задавался вопросом об одном и том же вопросе, и интуиция, данная догадками, помогла мне. Чтобы визуализировать интуицию, я взял два случайных нормальных вектора, x и y, построил график рассеяния и покрасил каждую точку как произведение их отклонений от соответствующих значений (синий для положительных значений, красный для отрицательных).

Как видно из графика, продукт является наиболее положительным в правом верхнем и нижнем левом квадрантах, а наиболее отрицательный - в правом нижнем и верхнем левом квадрантах. Эффект суммирования продуктов приведет к 0, так как синие точки отменяют красные.

Но вы можете видеть, что если мы удалили красные точки, оставшиеся данные демонстрируют положительную связь друг с другом, что подтверждается положительной суммой продуктов (то есть суммой синих точек).

введите описание изображения здесь


0

в векторном пространстве случайных величин целесообразно определить квадрат расстояния между двумя случайными величинами x и y с помощью E {(xy) ^ 2}, теперь по отношению к этому определению произведение расстояния или отношения случайных величин будет равно E {xy}, который очень похож на определение ковариации, за исключением терминов -E {x} и -E {y}, которые относятся к типу нормализации.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.