Как вывести дисперсионно-ковариационную матрицу коэффициентов в линейной регрессии


36

Я читаю книгу о линейной регрессии и у меня возникли проблемы с пониманием дисперсионно-ковариационной матрицы b :

введите описание изображения здесь

Диагональные элементы достаточно просты, но недиагональные немного сложнее, меня удивляет то, что

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

но здесь нет следов и β 1 .β0β1


3
Связанный вопрос: stats.stackexchange.com/questions/44838/…
ocram

2
Какая книга?
Константинос

Нетер и др., Прикладные линейные регрессионные модели, 1983, стр. 216. Вы можете найти тот же материал в Прикладных линейных статистических моделях, 5-е издание, стр. 207.
akavalar

Ответы:


53

Это действительно крутой вопрос, который бросает вызов вашему базовому пониманию регрессии.

Сначала уберите начальную путаницу в отношении обозначений. Мы смотрим на регрессию:

y=b0+b1x+u^

где b0 и b1 являются оценками истинного β0 и β1 , и у являются остатки регрессии. Обратите внимание, что базовая истинная и ненаблюдаемая регрессия, таким образом, обозначается как:u^

y=β0+β1x+u

С ожиданием E[u]=0 и дисперсией E[u2]=σ2 . Некоторые книги обозначают b как р и мы адаптируем эту конвенцию здесь. Мы также используем матричную запись, где b - вектор 2x1, который содержит оценки β = [ β 0 , β 1 ] , а именно b = [ b 0 , b 1 ] β^β=[β0,β1]b=[b0,b1], (Также для ясности я рассматриваю X как фиксированный в следующих вычислениях.)

Теперь к вашему вопросу. Ваша формула для ковариации действительно верна, то есть:

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

Я думаю, вы хотите знать, откуда у нас истинные ненаблюдаемые коэффициенты β0,β1 в этой формуле? Они на самом деле отменяются, если мы сделаем шаг вперед, расширив формулу. Чтобы увидеть это, обратите внимание, что дисперсия численности оценщика определяется как:

Var(β^)=σ2(XX)1

Эта матрица содержит дисперсии в диагональных элементах и ​​ковариации в недиагональных элементах.

Чтобы перейти к приведенной выше формуле, давайте обобщим вашу заявку, используя матричную запись. Поэтому обозначим дисперсию с Var[] и ожидание с E[] .

Var[b]=E[b2]E[b]E[b]

По сути, у нас есть общая формула дисперсии, просто с использованием матричной записи. Уравнение разрешается при подстановке в стандартное выражение для оценки b=(XX)1Xy . Также предположим, что E[b]=β является несмещенной оценкой. Отсюда получаем:

E[((XX)1Xy)2]β22×2

Обратите внимание, что у нас справа матрица β2 - 2x2, а именно bb , но вы уже можете догадаться, что произойдет с этим термином в ближайшее время.

Заменив y нашим выражением для истинного базового процесса генерации данных выше, мы имеем:

E[((XX)1Xy)2]β2=E[((XX)1X(Xβ+u))2]β2=E[((XX)1XX=Iβ+(XX)1Xu)2]β2=E[(β+(XX)1Xu)2]β2=β2+E[(XX)1Xu)2]β2

так как E[u]=0 . Кроме того, квадратичный β2 член отменяется, как и ожидалось.

Таким образом, мы имеем:

Var[b]=((XX)1X)2E[u2]

По линейности ожиданий. Отметим, что по предположению E[u2]=σ2 и ((XX)1X)2=(XX)1XX(XX)1=(XX)1 поскольку XX является K×K симметричная матрица и, следовательно, такая же, как ее транспонировать. Наконец мы приходим к

Var[b]=σ2(XX)1

ββ0β1

σ2(XX)1 and independent of β. But what does this mean? (I believe you asked also for a more general understanding of the general covariance matrix)

Look at the formula in the book. It simply asserts that the variance of the estimator increases for when the true underlying error term is more noisy (σ2 increases), but decreases for when the spread of X increases. Because having more observations spread around the true value, lets you in general build an estimator that is more accurate and thus closer to the true β. On the other hand, the covariance terms on the off-diagonal become practically relevant in hypothesis testing of joint hypotheses such as b0=b1=0. Other than that they are a bit of a fudge, really. Hope this clarifies all questions.


and when keep the spread constant and decrease the x's, the standard error of the intercept becomes smaller, which makes sense.
Theta30

I don't follow the expansion of the square. Why is not simplified to ((XX)1X)2=((XX)1X)((XX)1X)=X2?
David

2

In your case we have

XX=[nXiXiXi2]

Invert this matrix and you will get the desired result.


1

It appears that β0β1 are the predicted values (expected values). They make the switch between E(b0)=β0 and E(b1)=β1.


β0 and β1 are generally unknown, what can they switch to?
qed

I think I understand the confusion, and I think they perhaps should have written β0 rather than β0. Here's another post that goes through the calculation: link
Drew75

2
@qed: to sample estimates of the unknown quantities.
Glen_b -Reinstate Monica
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.