Интуитивное объяснение

18

Если имеет полный ранг, существует обратное к и мы получаем оценку наименьших квадратов: и $X$ $X^TX$

\hat{β} = (X^{T} X)^{- 1} X Y

$\hat\beta = (X^TX)^{-1}XY$

Var (\hat{β}) = σ^{2} (X^{T} X)^{- 1}

$\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1}$

Как мы можем интуитивно объяснить в формуле дисперсии? Техника деривации для меня понятна. $(X^TX)^{-1}$

regression variance least-squares

— Даниил Ефимов
источник

3

Вы можете добавить примечание , чтобы указать, что формула вы заявили , для ковариационной матрицы

- предполагая , что

оценивается с помощью МНК - это правильно , только если условия Гаусса-Маркова теоремы удовлетворяется и, в частности, только в том случае, если матрица дисперсии-ковариации членов ошибки задана как

, где

- единичная матрица

а

- количество строк в

(и

). Формула вы предоставили это не верно для более общего случая несферических ошибок.

\hat{β}

$\hat{\beta}$

\hat{β}

$\hat{\beta}$

σ^{2} I_{n}

$\sigma^2 I_n$

I_{n}

$I_n$

n \times n

$n\times n$

n

$n$

X

$X$

Y

$Y$

— Mico

13

Рассмотрим простую регрессию без постоянного члена, и где отдельный регрессор центрируется на среднем значении выборки. Тогда $X'X$ является ( $n$ раз) его выборочной дисперсией, а $(X'X)^{-1}$ его рециркальным. Таким образом, чем выше дисперсия = изменчивость в регрессоре, тем ниже дисперсия оценки коэффициента: чем больше изменчивости в объясняющей переменной, тем точнее мы можем оценить неизвестный коэффициент.

Почему? Поскольку чем больше регрессор, тем больше информации он содержит. Когда регрессоров много, это обобщается на обратную их дисперсионно-ковариационную матрицу, которая также учитывает ко-изменчивость регрессоров. В крайнем случае, когда является диагональю, тогда точность для каждого оцененного коэффициента зависит только от дисперсии / изменчивости ассоциированного регрессора (учитывая дисперсию члена ошибки). $X'X$

— Алекос Пападопулос
источник

Не могли бы вы связать этот аргумент с тем фактом, что обратная матрица дисперсии-ковариации дает частичную корреляцию ?

— Гейзенберг

5

Простой способ просмотра заключается в качестве матричного (многомерного) аналога $\sigma^2 \left(\mathbf{X}^{T} \mathbf{X} \right)^{-1}$ , который представляет собой дисперсию коэффициента наклона в простой МНК регрессии. Можно даже получить $\frac{\sigma^2}{\sum_{i=1}^n \left(X_i-\bar{X}\right)^2}$ для этой дисперсиипомощью ommitting перехвата в модели, т.е. путем выполнения регрессии через начало координат. $\frac{\sigma^2}{\sum_{i=1}^n X_i^2}$

Из любой из этих формул можно видеть, что большая изменчивость предикторной переменной в общем случае приведет к более точной оценке ее коэффициента. Эту идею часто используют при планировании экспериментов, когда, выбирая значения для (неслучайных) предикторов, стараются сделать детерминант как можно большим, причем детерминант является мерой изменчивости. $\left(\mathbf{X}^{T} \mathbf{X} \right)$

— JohnK
источник

2

Помогает ли линейное преобразование гауссовой случайной величины? Используя правило, что если , то . $x \sim \mathcal{N}(\mu,\Sigma)$ $Ax + b ~ \sim \mathcal{N}(A\mu + b,A^T\Sigma A)$

Предполагая, что является базовой моделью и . $Y = X\beta + \epsilon$ $\epsilon \sim \mathcal{N}(0, \sigma^2)$

∴ Y \sim N (X β, σ^{2}) X^{T} Y \sim N (X^{T} X β, X σ^{2} X^{T}) (X^{T} X)^{- 1} X^{T} Y \sim N [β, (X^{T} X)^{- 1} σ^{2}]

$\therefore Y \sim \mathcal{N}(X\beta,\sigma^2)\\ X^TY \sim \mathcal{N}(X^TX\beta, X\sigma^2 X^T)\\ (X^TX)^{-1}X^TY \sim \mathcal{N}[\beta,(X^TX)^{-1} \sigma^2]$

Таким образом , просто сложная матрица масштабирования , которая преобразовывает распределение . $(X^TX)^{-1}X^T$ $Y$

Надеюсь, это было полезно.

— kedarps
источник

Ничто в выводе оценки OLS и его дисперсии не требует нормальности слагаемых ошибок. Все, что требуется, это

и

. (Конечно, нормальность это требуется , чтобы показать , что МНК достигает Крамера-Рао нижняя граница, но это не то , что проводка в OP составляет около, правда?)

E (ε) = 0

$E(\varepsilon)=0$

E (ε ε^{T}) = σ^{2} I_{n}

$E(\varepsilon\varepsilon^T)=\sigma^2 I_n$

— Мико

2

Я возьму другой подход к развитию интуиции, которая лежит в основе формулы . При разработке интуиции для модели множественной регрессии полезно рассмотреть модель двумерной линейной регрессии,а именно. , $\text{Var}\,\hat{\beta}=\sigma^2 (X'X)^{-1}$ часто называют детерминированным вкладом в , а называют стохастическим вкладом. Выраженный в терминах отклонений от выборочных средних , эта модель также может быть записанавиде

y_{i} = α + β x_{i} + ε_{i}, i = 1, \dots, n .

$y_i=\alpha+\beta x_i + \varepsilon_i, \quad i=1,\ldots,n.$

α + β x_{i}

$\alpha+\beta x_i$

y_{i}

$y_i$

ε_{i}

$\varepsilon_i$

(\bar{x}, \bar{y})

$(\bar{x},\bar{y})$

(y_{i} - \bar{y}) = β (x_{i} - \bar{x}) + (ε_{i} - \bar{ε}), i = 1, \dots, n .

$(y_i-\bar{y}) = \beta(x_i-\bar{x})+(\varepsilon_i-\bar{\varepsilon}), \quad i=1,\ldots,n.$

Для того, чтобы помочь развить интуицию, мы будем считать , что простейшие предположения Гаусса-Маркова удовлетворены: неслучайная, для всех , и для всех . Как вы уже хорошо знаете, эти условия гарантируют, что $x_i$ $\sum_{i=1}^n(x_i-\bar{x})^2>0$ $n$ $\varepsilon_i \sim \text{iid}(0,\sigma^2)$ $i=1,\ldots,n$ где

Var \hat{β} = \frac{1}{n} σ^{2} (Var x)^{- 1},

$\text{Var}\,\hat{\beta}=\tfrac{1}{n}\sigma^2(\text{Var}\,x)^{-1}\text{,}$

- выборочная дисперсия

. На словах эта формула делает три утверждения: «Дисперсия

обратно пропорциональна размеру выборки

, он прямо пропорционален дисперсии

, и он обратно пропорционален дисперсии

.»

Var x

$\text{Var}\,x$

x

$x$

\hat{β}

$\hat{\beta}$

n

$n$

ε

$\varepsilon$

x

$x$

Почему удвоение размера выборки, при прочих равных условиях , потому что дисперсия будет разрезать пополам? Этот результат тесно связан с допущением iid, примененным к : поскольку предполагается, что отдельные ошибки являются iid, каждое наблюдение должно рассматриваться как предварительное как информативное. И удвоение количества наблюдений удваивает количество информации о параметрах, которые описывают (предполагаемую линейную) связь между и . Наличие вдвое больше информации сокращает неопределенность параметров в два раза. Точно так же должно быть легко развить интуицию относительно того, почему удвоение $\hat{\beta}$ $\varepsilon$ $x$ $y$ также удваивает дисперсию . $\sigma^2$ $\hat{\beta}$

Обратим, то, на ваш главный вопрос, который о развитии интуиции для утверждения , что дисперсия является обратно пропорциональной к дисперсии . Чтобы формализовать понятия, давайте рассмотрим две отдельные модели двумерной линейной регрессии, которые теперь называются Модель и Модель . Предположим, что обе модели удовлетворяют предположениям о простейшем виде теоремы Гаусса-Маркова и что модели имеют одинаковые значения , , и . При этих предположениях легко показать, что $\hat{\beta}$ $x$ $(1)$ $(2)$ $\alpha$ $\beta$ $n$ $\sigma^2$ $\text{E}\,\hat{\beta}{}^{(1)}=\text{E}\,\hat{\beta}{}^{(2)}=\beta$ $\bar{x}^{(1)}=\bar{x}^{(2)}=\bar{x}$ $\text{Var}\,x^{(1)}\ne \text{Var}\,x^{(2)}$ . Without loss of generality, let us assume that $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ . Which estimator of $\hat{\beta}$ will have the smaller variance? Put differently, will $\hat{\beta}{}^{(1)}$ or $\hat{\beta}{}^{(2)}$ be closer, on average, to $\beta$ ? From the earlier discussion, we have $\text{Var}\,\hat{\beta} {}^{(k)} =\tfrac{1}{n}\sigma^2/\text{Var}\,x{}^{(k)})$ for $k=1,2$ . Because $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ by assumption, it follows that $\text{Var}\,\hat{\beta}{}^{(1)} <\text{Var}\,\hat{\beta}{}^{(2)}$ . What, then, is the intuition behind this result?

Because by assumption $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ , on average each $x_i^{(1)}$ will be farther away from $\bar{x}$ than is the case, on average, for $x_i^{(2)}$ . Let us denote the expected average absolute difference between $x_i$ and $\bar{x}$ by $d_x$ . The assumption that $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ implies that $d_x^{(1)} >d_x^{(2)}$ . The bivariate linear regression model, expressed in deviations from means, states that $d_y = \beta d_x^{(1)}$ for Model $(1)$ and $d_y = \beta d_x^{(2)}$ for Model $(2)$ . If $\beta\ne0$ , this means that the deterministic component of Model $(1)$ , $\beta d_x^{(1)}$ , has a greater influence on $d_y$ than does the deterministic component of Model $(2)$ , $\beta d_x^{(2)}$ . Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that $\beta^{(1)}=\beta^{(2)}=\beta$ . Since Model $(1)$ imparts more information about the contribution of the deterministic component of $y$ than does Model $(2)$ , it follows that the precision with which the deterministic contribution can be estimated is greater for Model $(1)$ than is the case for Model $(2)$ . The converse of greater precision is a lower variance of the point estimate of $\beta$ .

It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)

— Mico
источник

1

Say we have $n$ observations (or sample size) and $p$ parameters.

The covariance matrix $\operatorname{Var}(\hat{\beta})$ of the estimated parameters $\hat{\beta}_1,\hat{\beta}_2$ etc. is a representation of the accuracy of the estimated parameters.

If in an ideal world the data could be perfectly described by the model, then the noise will be $\sigma^2= 0$ . Now, the diagonal entries of $\operatorname{Var}(\hat{\beta})$ correspond to $\operatorname{Var}(\hat{\beta_1}),\operatorname{Var}(\hat{\beta_2})$ etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.

In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of $X^TX$ will be higher, as the number of columns of $X^T$ is $n$ and the number of rows of $X$ is $n$ , and each entry of $X^TX$ is a sum of $n$ product pairs. The absolute value of the entries of the inverse $(X^TX)^{-1}$ will be lower.

Hence, even if there is a lot of noise, we can still reach good estimates $\hat{\beta_i}$ of the parameters if we increase the sample size $n$ .

I hope this helps.

Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.

— Dilly Minch
источник

1

Это основано на ответе @Alecos Papadopuolos.

Напомним, что результат регрессии наименьших квадратов не зависит от единиц измерения ваших переменных. Предположим, что ваша X-переменная является измерением длины в дюймах. Тогда изменение масштаба X, скажем, умножением на 2,54, чтобы изменить единицу измерения на сантиметры, не оказывает существенного влияния на вещи. Если вы переустановите модель, новая регрессионная оценка будет старой оценкой, деленной на 2,54.

$X'X$ Матрица представляет собой дисперсию X и, следовательно, отражает шкалу измерения X. Если вы измените шкалу, вы должны отразить это в своей оценке $\beta$ , И это делается путем умножения на обратную часть $X'X$ ,

— Hong Ooi
источник