Какова интуиция за условным распределением Гаусса?


46

Предположим, что . Тогда условное распределение условии, что является многомерным, обычно распределяется со средним:XN2(μ,Σ)X1X2=x2

E[P(X1|X2=x2)]=μ1+σ12σ22(x2μ2)

и дисперсия:

Var[P(X1|X2=x2)]=σ11σ122σ22

Имеет смысл, что дисперсия будет уменьшаться, поскольку у нас больше информации. Но какова интуиция за формулой среднего? Как ковариация между и условное среднее?X1X2


2
Является ли ваш вопрос просто «почему не означает условное распределение = »? μ1
gung - Восстановить Монику

@gung: Это правда, если . Но почему участвуют и ? x2=μ2σ11σ22
eroeijr

3
В натуральных («стандартизированных») единицах мы пишем где . В этих терминах условное распределение является нормальным с иТот факт, что называется «возврат к среднему» или « возврат к среднему» : существует обширная техническая и популярная литература по этому вопросу, насчитывающая 130 лет. Xi=μ1+σiZiσi=σiiE(Z1|Z2)=ρZ2ρ=σ12/(σ1σ2).|ρ|1
whuber

2
Скажите, eroeijr, это ваш пост ? (Помимо «Гость» в начале, есть четкое сходство в именах.) Если это ваше, вы должны попросить объединить два аккаунта и взять тот большой бонус в баллах, которые у вас будут.
Glen_b

2
Как рекомендует @Glen_b, если у вас есть несколько (незарегистрированных) учетных записей, заполните форму по адресу stats.stackexchange.com/contact и запросите их объединение.
Chl

Ответы:


57

конспект

Каждое утверждение в вопросе можно понимать как свойство эллипсов. Только свойство частности к двумерному нормального распределения , который необходим тот факт , что в стандартном двумерное нормальное распределение --Для которого и являются некоррелированными - условная дисперсия не зависит от . (Это, в свою очередь, является прямым следствием того факта, что отсутствие корреляции подразумевает независимость для совместно нормальных переменных.)X,YXYYX

Следующий анализ точно показывает, какое свойство эллипсов задействовано, и выводит все уравнения вопроса, используя элементарные идеи и простейшую возможную арифметику, способом, который должен легко запоминаться.


Циркулярно-симметричные распределения

Распределение вопроса является членом семейства двумерных нормальных распределений. Все они являются производными от базового члена, стандартного двумерного нормали, который описывает два некоррелированных стандартных распределения нормалей (образующих его две координаты).

Рисунок 1: стандартное двумерное нормальное распределение

Левая сторона представляет собой рельефный график стандартной двумерной нормальной плотности. Правая сторона показывает то же самое в псевдо-3D, с вырезанной передней частью.

Это пример циркулярно-симметричного распределения: плотность изменяется в зависимости от расстояния от центральной точки, но не от направления от этой точки. Таким образом, контуры его графика (справа) представляют собой круги.

Однако большинство других двумерных нормальных распределений не являются круговыми симметричными: их поперечные сечения являются эллипсами. Эти эллипсы моделируют характерную форму многих двумерных облаков точек.

Рисунок 2: другое двумерное нормальное распределение, построенное на графике

Это портреты двумерного нормального распределения с ковариационной матрицей Это модель для данных с коэффициентом корреляции .Σ=(123231).2/3


Как создавать эллипсы

Эллипс - в соответствии с его самым старым определением - это коническое сечение, представляющее собой круг, искаженный проекцией на другую плоскость. Рассматривая природу проекции, так же как и визуальные художники, мы можем разложить ее на последовательность искажений, которые легко понять и рассчитать.

Сначала растяните (или, если необходимо, сожмите) окружность вдоль того, что станет длинной осью эллипса, пока она не станет правильной длины:

Шаг 1: растянуть

Затем сожмите (или вытяните) этот эллипс вдоль его малой оси:

Шаг 2: сожмите

В-третьих, поверните его вокруг его центра в его окончательную ориентацию:

Шаг 3: повернуть

Наконец, переместите его в нужное место:

Шаг 4: смена

Это все аффинные преобразования. (Фактически, первые три являются линейными преобразованиями ; последний сдвиг делает их аффинными.) Поскольку композиция аффинных преобразований (по определению) все еще аффинна, чистое искажение от круга к конечному эллипсу является аффинным преобразованием. Но это может быть несколько сложно:

Композитное преобразование

Обратите внимание, что случилось с (естественными) осями эллипса: после того, как они были созданы смещением и сжатием, они (конечно) вращались и смещались вместе с самой осью. Мы легко видим эти оси, даже если они не нарисованы, потому что они являются осями симметрии самого эллипса.

Мы хотели бы применить наше понимание эллипсов к пониманию искаженных циркулярно-симметричных распределений, таких как двумерное нормальное семейство. К сожалению, есть проблема с этими искажениями : они не учитывают различия между осями иВращение на шаге 3 разрушает это. Посмотрите на слабые координатные сетки на заднем плане: они показывают, что происходит с сеткой (сеткиxy1/2в обоих направлениях) когда оно искажено. На первом изображении расстояние между исходными вертикальными линиями (показано сплошным) удваивается. На втором изображении расстояние между исходными горизонтальными линиями (показано пунктирной линией) сокращено на треть. На третьем изображении интервалы сетки не изменены, но все линии повернуты. Они сдвигаются вверх и вправо на четвертом изображении. Окончательное изображение, показывающее чистый результат, отображает эту растянутую, сжатую, повернутую, смещенную сетку. Исходные сплошные линии с постоянной координатой больше не являются вертикальными.x

Идея ключа --one может рискнет сказать , что это суть регрессии - это то , что есть способ , в котором круг может быть искажен в эллипс без поворота вертикальных линий . Поскольку вращение было виновником, давайте перейдем к преследованию и покажем, как создать вращаемый эллипс, фактически не вращаясь !

Перекошенный эллипс

Это перекос трансформации. На самом деле он делает две вещи одновременно:

  • Он выжимает в направлении (на величину , скажем). Это оставляет ось покое.yλx

  • Он поднимает любую результирующую точку на величину, прямо пропорциональную . Записывая эту константу пропорциональности как , это отправляет в .(x,y)xρ(x,y)(x,y+ρx)

Второй шаг поднимает ось в линию , показанную на предыдущем рисунке. Как показано на этом рисунке, я хочу работать со специальным перекосом, который эффективно поворачивает эллипс на 45 градусов и вписывает его в единицу площади. Главной осью этого эллипса является линия . Наглядно видно, что . (Отрицательные значения наклоняют эллипс вправо, а не вправо.) Это геометрическое объяснение «регрессии к среднему».xy=ρxy=x|ρ|1ρ

Выбор угла в 45 градусов делает эллипс симметричным относительно диагонали квадрата (часть линии ). Чтобы выяснить параметры этого перекоса, соблюдайте:y=x

  • Подъем на перемещает точкуρx(1,0)(1,ρ)

  • (ρ,1)

Где этот пункт начался?

  • x2+y2=1xρ(ρ,1ρ2)

  • (ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)

(ρ,λ1ρ2+ρ2)=(ρ,1)λ=1ρ2ρ

ρ0, 3/10, 6/10,9/10,

живописная картина

ρ


заявка

Мы готовы сделать регресс. Стандартный, элегантный (но простой) метод для выполнения регрессии - это прежде всего выражение исходных переменных в новых единицах измерения: мы центрируем их по их средним значениям и используем их стандартные отклонения в качестве единиц измерения. Это перемещает центр распределения в начало координат и делает все его эллиптические контуры наклонными на 45 градусов (вверх или вниз).

x0x0y1ρ2ρxρxx

  • y0

  • ρxxρxy=ρx

xy=ρx

x

Мы можем легко сказать больше:

  • (X,Y)Y|X(1ρ2)2=1ρ2

  • 1ρ2ρx

1x1ρ2

ρΣXYXYXY(X,Y)

ε=YρX

ε0Y0ρXρX

3D-график, показывающий условные распределения и линию наименьших квадратов

xρ=1/2

вследствие этого

E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.

X1XεX(ε)ε0

ρXY


Выводы

x(X,Y)xyμxμyσxσy

  • (μx,μy)

  • {(x,ρx)},

  • ρσyρ/σx

Следовательно, уравнение линии регрессии

y=σyρσx(xμx)+μy.
  • Y|Xσy2(1ρ2)Y|X(X,Y)X=(XμX)/σxY=(YμY)/σY

Y|X1

  • Σσ11=σx2, σ12=σ21=ρσxσy,σ22=σy2,Y|X

σy2(1ρ2)=σ22(1(σ12σ11σ22)2)=σ22σ122σ11.

Технические примечания

y

(1ρρ1)=AA

где

A=(10ρ1ρ2).

Намного лучше известен квадратный корень, который описан вначале (с вращением вместо перекоса); это тот, который создается разложением по единственному значению, и он играет важную роль в анализе главных компонентов (PCA):

(1ρρ1)=BB;

B=Q(ρ+1001ρ)Q

Q=(12121212)45

Таким образом, различие между PCA и регрессией сводится к разнице между двумя особыми квадратными корнями матрицы корреляции.


1
Красивые картинки и отличные описания. В обновлении было несколько предложений, которые остались неполными (как будто вы знали в основном то, что собирались сказать, но не определились с окончательной формулировкой).
кардинал

1
@Cardinal Спасибо. Я буду перечитывать это и искать такие вещи, а также неизбежные опечатки. Вы слишком любезны, чтобы указать на другие вещи, которые вы наверняка заметили, например, на некоторые пробелы в экспозиции. Самым большим является то, что я на самом деле не показал, что эти эллипсы находятся под углами 45 градусов (эквивалентно вписаны в единицу площади); Я просто предполагал это. Я все еще ищу простую демонстрацию. Во-вторых, можно опасаться, что асимметричное преобразование может дать распределение, отличное от исходного stretch-squeeze-rotate-shift, но это легко показать, что это не так.
whuber

3
Это действительно интересно. Спасибо, что нашли время, чтобы написать это.
Билл

В первом абзаце заявок написано, что: «мы центрируем их по средним значениям и используем их стандартные отклонения в качестве единиц измерения. Это перемещает центр распределения к началу координат и делает все его эллиптические контуры наклонными на 45 градусов», но я не Не понимаете, как центрирование переменных на их средствах перемещает их центры в начало координат и выравнивает их до 45 градусов?
Kaushal28

f(X,Y)=e12(x2+y2)f(X,Y)f(X)f(Y)

21

YX=xiXX1X20X2x1где вы «разрезаете» многомерное распределение. Посмотрите на рисунок ниже:

введите описание изображения здесь

X1X2X2X1μX2|X1=25μX2|X1=45,

σ22ΣX2σ2σ

y^i

β^1=Cov(x,y)Var(x)
σ12/σ22μX2|X1=xiμX2μX2 x2iX1X2

Что произойдет, если вы включите больше переменных? Вы бы просто добавили и вычли лишние термины из среднего значения и дисперсии?

2
YXy^i=Xiβ^β^=(XTX)1XTY

Что вы использовали для создания графика? Mathematica?
mpiktas

@mpiktas, мой график или whuber? Я считаю, что это Mathematica, но я сделал тот, что выше с R. (Гадкий код, хотя ...)
gung - Восстановить Монику

1
@mpiktas, я не могу представить, чтобы мой код когда-либо описывался как «потрясающий» ... Нормальные кривые нарисованы с / dnorm(y). Я просто добавляю вывод в 25& 45, & использую как x.
gung - Восстановить Монику

3

Ответ Гунга хороший (+1). Однако есть и другой способ взглянуть на это. Представьте, что ковариация между и должна быть положительной. Что это значит для ? Ну, это означает, что когда выше среднего значения , имеет тенденцию быть выше среднего значения , и наоборот .X1X2σ1,2>0X2X2X1X1

Теперь предположим, что я сказал вам, что . То есть, предположим, я говорил вам, что выше среднего значения. Разве вы не пришли бы к выводу, что , вероятно, выше его среднего значения (поскольку вы знаете и знаете, что означает ковариация)? Итак, теперь, если вы возьмете среднее значение , зная, что выше среднего значения , вы получите число выше среднего значения . Вот что говорит формула: Если ковариация положительна иX2=x2>μ2X2X1σ1,2>0X1X2X2X1

E{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
X2выше среднего, то . E{X1|X2=x2}>μ1

Условное ожидание принимает форму выше для нормального распределения, а не для всех распределений. Это кажется немного странным, учитывая, что рассуждения в параграфе выше кажутся довольно убедительными. Однако (почти) независимо от распределения и эта формула : Где означает лучший линейный предиктор. Нормальное распределение особенное в том, что условное ожидание и лучший линейный предиктор - это одно и то же.X1X2

BLP{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
BLP

Кажется, что нет никакого элемента этого аргумента, который фактически показывает, что коэффициент должен равняться отношению ковариаций . Почему не куб такого соотношения? Или его синус? Или какая-то другая мера ассоциации, такая как дивергенция KL (которая имеет мало общего с ковариацией)? Такие формулы качественно воспроизведут поведение, которое вы описываете. Учитывая такую ​​неопределенность в рассуждениях, неудивительно, что ваша формула применима только к конкретной форме двумерного распределения, а не только к любому распределению. x2μ2σ12/σ22
whuber

1
@whuber Да, и это даже хуже, чем это. Нетрудно составить пример с ненормальными дистрибутивами, где для некоторого значения , даже если . Части «склонны быть» и «скорее всего, будут» в моей дискуссии слякотны. Возможно, кто-то мог бы привести формулу BLP (может быть, вывести ее?), Но вопрос задавался скорее для интуиции, чем для доказательства. x2>μ2E(X1|X2=x2)<μ1σ1,2>0
Билл

1
«Интуитивно» не подразумевает «неколичественный»: оба могут идти вместе. Часто трудно найти интуитивный аргумент, который дает количественные результаты, но часто это можно сделать, и процесс поиска такого аргумента всегда освещает.
whuber

В отношении последнего абзаца: я обнаружил, что нормальное распределение не так уж и особенное: семейства, созданные аффинными преобразованиями циркулярно-симметричных распределений, являются особыми (которых очень много).
whuber

@whuber Это довольно интересно. У вас есть ссылка или ссылка?
Билл
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.