Если имеет полный ранг, существует обратное к и мы получаем оценку наименьших квадратов: иХ Т Х β = ( Х Т Х ) - 1 х Y
Как мы можем интуитивно объяснить в формуле дисперсии? Техника деривации для меня понятна.
Если имеет полный ранг, существует обратное к и мы получаем оценку наименьших квадратов: иХ Т Х β = ( Х Т Х ) - 1 х Y
Как мы можем интуитивно объяснить в формуле дисперсии? Техника деривации для меня понятна.
Ответы:
Рассмотрим простую регрессию без постоянного члена, и где отдельный регрессор центрируется на среднем значении выборки. Тогда является ( раз) его выборочной дисперсией, а его рециркальным. Таким образом, чем выше дисперсия = изменчивость в регрессоре, тем ниже дисперсия оценки коэффициента: чем больше изменчивости в объясняющей переменной, тем точнее мы можем оценить неизвестный коэффициент.
Почему? Поскольку чем больше регрессор, тем больше информации он содержит. Когда регрессоров много, это обобщается на обратную их дисперсионно-ковариационную матрицу, которая также учитывает ко-изменчивость регрессоров. В крайнем случае, когда является диагональю, тогда точность для каждого оцененного коэффициента зависит только от дисперсии / изменчивости ассоциированного регрессора (учитывая дисперсию члена ошибки).
Простой способ просмотра заключается в качестве матричного (многомерного) аналога σ 2 , который представляет собой дисперсию коэффициента наклона в простой МНК регрессии. Можно даже получитьσ2 для этой дисперсиипомощью ommitting перехвата в модели, т.е. путем выполнения регрессии через начало координат.
Из любой из этих формул можно видеть, что большая изменчивость предикторной переменной в общем случае приведет к более точной оценке ее коэффициента. Эту идею часто используют при планировании экспериментов, когда, выбирая значения для (неслучайных) предикторов, стараются сделать детерминант как можно большим, причем детерминант является мерой изменчивости.
Помогает ли линейное преобразование гауссовой случайной величины? Используя правило, что если , то A x + b ∼ N ( A μ + b , A T Σ A ) .
Предполагая, что является базовой моделью и ϵ ∼ N ( 0 , σ 2 ) .
Таким образом , просто сложная матрица масштабирования , которая преобразовывает распределение Y .
Надеюсь, это было полезно.
Я возьму другой подход к развитию интуиции, которая лежит в основе формулы . При разработке интуиции для модели множественной регрессии полезно рассмотреть модель двумерной линейной регрессии,а именно. ,yi=α+βxi+εi,α + β x i часто называют детерминированным вкладом в y i , а ε i называют стохастическим вкладом. Выраженный в терминах отклонений от выборочных средних ( ˉ х , ˉ у ) , эта модель также может быть записанавиде ( у я - ˉ у ) = & beta ; ( х я - ° х ) + ( е
Для того, чтобы помочь развить интуицию, мы будем считать , что простейшие предположения Гаусса-Маркова удовлетворены: неслучайная, Σ п я = 1 ( х я - ˉ х ) 2 > 0 для всех п , и ε я ~ н.о.р. ( 0 , σ 2 ) для всех i = 1 , … , n . Как вы уже хорошо знаете, эти условия гарантируют, что Вар где вар
Почему удвоение размера выборки, при прочих равных условиях , потому что дисперсия р будет разрезать пополам? Этот результат тесно связан с допущением iid, примененным к ε : поскольку предполагается, что отдельные ошибки являются iid, каждое наблюдение должно рассматриваться как предварительное как информативное. И удвоение количества наблюдений удваивает количество информации о параметрах, которые описывают (предполагаемую линейную) связь между x и y . Наличие вдвое больше информации сокращает неопределенность параметров в два раза. Точно так же должно быть легко развить интуицию относительно того, почему удвоение также удваивает дисперсию р .
Обратим, то, на ваш главный вопрос, который о развитии интуиции для утверждения , что дисперсия р является обратно пропорциональной к дисперсии х . Чтобы формализовать понятия, давайте рассмотрим две отдельные модели двумерной линейной регрессии, которые теперь называются Модель ( 1 ) и Модель ( 2 ) . Предположим, что обе модели удовлетворяют предположениям о простейшем виде теоремы Гаусса-Маркова и что модели имеют одинаковые значения α , β , n и σ 2 . При этих предположениях легко показать, что E. Without loss of generality, let us assume that . Which estimator of will have the smaller variance? Put differently, will or be closer, on average, to ? From the earlier discussion, we have for . Because by assumption, it follows that . What, then, is the intuition behind this result?
Because by assumption , on average each will be farther away from than is the case, on average, for . Let us denote the expected average absolute difference between and by . The assumption that implies that . The bivariate linear regression model, expressed in deviations from means, states that for Model and for Model . If , this means that the deterministic component of Model , , has a greater influence on than does the deterministic component of Model , . Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that . Since Model imparts more information about the contribution of the deterministic component of than does Model , it follows that the precision with which the deterministic contribution can be estimated is greater for Model than is the case for Model . The converse of greater precision is a lower variance of the point estimate of .
It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)
Say we have observations (or sample size) and parameters.
The covariance matrix of the estimated parameters etc. is a representation of the accuracy of the estimated parameters.
If in an ideal world the data could be perfectly described by the model, then the noise will be . Now, the diagonal entries of correspond to etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.
In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of will be higher, as the number of columns of is and the number of rows of is , and each entry of is a sum of product pairs. The absolute value of the entries of the inverse will be lower.
Hence, even if there is a lot of noise, we can still reach good estimates of the parameters if we increase the sample size .
I hope this helps.
Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.
Это основано на ответе @Alecos Papadopuolos.
Напомним, что результат регрессии наименьших квадратов не зависит от единиц измерения ваших переменных. Предположим, что ваша X-переменная является измерением длины в дюймах. Тогда изменение масштаба X, скажем, умножением на 2,54, чтобы изменить единицу измерения на сантиметры, не оказывает существенного влияния на вещи. Если вы переустановите модель, новая регрессионная оценка будет старой оценкой, деленной на 2,54.
Матрица представляет собой дисперсию X и, следовательно, отражает шкалу измерения X. Если вы измените шкалу, вы должны отразить это в своей оценке , И это делается путем умножения на обратную часть,