Я читаю книгу о линейной регрессии и у меня возникли проблемы с пониманием дисперсионно-ковариационной матрицы :
Диагональные элементы достаточно просты, но недиагональные немного сложнее, меня удивляет то, что
но здесь нет следов и β 1 .
Я читаю книгу о линейной регрессии и у меня возникли проблемы с пониманием дисперсионно-ковариационной матрицы :
Диагональные элементы достаточно просты, но недиагональные немного сложнее, меня удивляет то, что
но здесь нет следов и β 1 .
Ответы:
Это действительно крутой вопрос, который бросает вызов вашему базовому пониманию регрессии.
Сначала уберите начальную путаницу в отношении обозначений. Мы смотрим на регрессию:
где и являются оценками истинного и , и у являются остатки регрессии. Обратите внимание, что базовая истинная и ненаблюдаемая регрессия, таким образом, обозначается как:
С ожиданием и дисперсией . Некоторые книги обозначают как р и мы адаптируем эту конвенцию здесь. Мы также используем матричную запись, где b - вектор 2x1, который содержит оценки β = [ β 0 , β 1 ] ′ , а именно b = [ b 0 , b 1 ] ′, (Также для ясности я рассматриваю X как фиксированный в следующих вычислениях.)
Теперь к вашему вопросу. Ваша формула для ковариации действительно верна, то есть:
Я думаю, вы хотите знать, откуда у нас истинные ненаблюдаемые коэффициенты в этой формуле? Они на самом деле отменяются, если мы сделаем шаг вперед, расширив формулу. Чтобы увидеть это, обратите внимание, что дисперсия численности оценщика определяется как:
Эта матрица содержит дисперсии в диагональных элементах и ковариации в недиагональных элементах.
Чтобы перейти к приведенной выше формуле, давайте обобщим вашу заявку, используя матричную запись. Поэтому обозначим дисперсию с и ожидание с .
По сути, у нас есть общая формула дисперсии, просто с использованием матричной записи. Уравнение разрешается при подстановке в стандартное выражение для оценки . Также предположим, что является несмещенной оценкой. Отсюда получаем:
Обратите внимание, что у нас справа матрица - 2x2, а именно , но вы уже можете догадаться, что произойдет с этим термином в ближайшее время.
Заменив нашим выражением для истинного базового процесса генерации данных выше, мы имеем:
так как . Кроме того, квадратичный член отменяется, как и ожидалось.
Таким образом, мы имеем:
По линейности ожиданий. Отметим, что по предположению и поскольку является симметричная матрица и, следовательно, такая же, как ее транспонировать. Наконец мы приходим к
and independent of . But what does this mean? (I believe you asked also for a more general understanding of the general covariance matrix)
Look at the formula in the book. It simply asserts that the variance of the estimator increases for when the true underlying error term is more noisy ( increases), but decreases for when the spread of X increases. Because having more observations spread around the true value, lets you in general build an estimator that is more accurate and thus closer to the true . On the other hand, the covariance terms on the off-diagonal become practically relevant in hypothesis testing of joint hypotheses such as . Other than that they are a bit of a fudge, really. Hope this clarifies all questions.
It appears that are the predicted values (expected values). They make the switch between and .