Линейная регрессия: * Почему * вы можете разделить суммы квадратов?

9

Этот пост относится к двумерной модели линейной регрессии, . Я всегда брал разбиение общей суммы квадратов (SSTO) на сумму квадратов для ошибки (SSE) и суммы квадратов для модели (SSR) по вере, но как только я действительно начал думать об этом, я не понимаю почему это работает ... $Y_i = \beta_0 + \beta_1x_i$

Часть I действительно понимают:

$y_i$ : наблюдаемое значение y

$\bar{y}$ : среднее значение всех наблюдаемых s $y_i$

$\hat{y}_i$ : подогнанное / предсказанное значение y для данного наблюдения x

$y_i - \hat{y}_i$ : Остаток / ошибка (если возвести в квадрат и сложить для всех наблюдений, это SSE)

$\hat{y}_i - \bar{y}$ : насколько значение, соответствующее модели, отличается от среднего значения (если в квадрате и суммировать для всех наблюдений, это SSR)

$y_i - \bar{y}$ : насколько наблюдаемое значение отличается от среднего значения (если суммировать и суммировать для всех наблюдений, это SSTO).

Я могу понять, почему, для одного наблюдения, ничего не возводя в квадрат, . И я могу понять, почему, если вы хотите сложить вещи по всем наблюдениям, вы должны возвести их в квадрат, или они сложат до 0. $(y_i - \bar{y}) = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i)$

Я не понимаю, почему (например, SSTO = SSR + SSE). Похоже, что если у вас есть ситуация, когда , то , а не . Почему это не так? $(y_i - \bar{y})^2 = (\hat{y}_i - \bar{y})^2 + (y_i - \hat{y}_i)^2$ $A = B + C$ $A^2 = B^2 + 2BC + C^2$ $A^2 = B^2 + C^2$

regression sums-of-squares orthogonal

— bluemouse
источник

5

Вы пропустили суммирование в вашем последнем абзаце. SST = SSR + SSE - это сумма по , но ваше равенство, которое вы написали непосредственно перед тем, как оно на самом деле неверно без знака суммирования.

i

$i$

— Glen_b

1

В вашем последнем абзаце вы хотите (т.е. SSTO = SSR + SSE) нет (например, SSTO = SSR + SSE). «eg» - это сокращение от латинской фразы « examplesli gratia » или «например» на английском языке. «ie» является аббревиатурой от « id est » и может читаться на английском языке как «то есть».

— Мэтью Ганн

9

Похоже, что если у вас есть ситуация, когда , то , а не . Почему это не так? $A = B + C$ $A^2 = B^2 + 2BC + C^2$ $A^2 = B^2 + C^2$

Концептуально идея состоит в том, что потому что и ортогональны (то есть перпендикулярны). $BC = 0$ $B$ $C$

В контексте линейной регрессии здесь, невязки ортогональны унижал прогноз . Прогноз от линейной регрессии создает ортогональное разложение в том же смысле, что является ортогональным разложением. $\epsilon_i = y_i - \hat{y}_i$ $\hat{y}_i - \bar{y}$ $\mathbf{y}$ $(3,4) = (3,0) + (0,4)$

Версия линейной алгебры:

Позволять:

z = [\begin{matrix} y_{1} - \bar{y} \\ y_{2} - \bar{y} \\ \dots \\ y_{n} - \bar{y} \end{matrix}] \hat{z} = [\begin{matrix} {\hat{y}}_{1} - \bar{y} \\ {\hat{y}}_{2} - \bar{y} \\ \dots \\ {\hat{y}}_{n} - \bar{y} \end{matrix}] ϵ = [\begin{matrix} y_{1} - {\hat{y}}_{1} \\ y_{2} - {\hat{y}}_{2} \\ \dots \\ y_{n} - {\hat{y}}_{n} \end{matrix}] = z - \hat{z}

$\mathbf{z} = \begin{bmatrix} y_1 - \bar{y} \\ y_2 - \bar{y}\\ \ldots \\ y_n - \bar{y} \end{bmatrix} \quad \quad \mathbf{\hat{z}} = \begin{bmatrix} \hat{y}_1 - \bar{y} \\ \hat{y}_2 - \bar{y} \\ \ldots \\ \hat{y}_n - \bar{y} \end{bmatrix} \quad \quad \boldsymbol{\epsilon} = \begin{bmatrix} y_1 - \hat{y}_1 \\ y_2 - \hat{y}_2 \\ \ldots \\ y_n - \hat{y}_n \end{bmatrix} = \mathbf{z} - \hat{\mathbf{z}}$

Линейная регрессия (с включенной константой) разбивает на сумму двух векторов: прогноз и остаточный $\mathbf{z}$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon}$

z = \hat{z} + ϵ

$\mathbf{z} = \hat{\mathbf{z}} + \boldsymbol{\epsilon}$

Пусть обозначает скалярное произведение . (В более общем смысле может быть внутренним произведением .) $\langle .,. \rangle$ $\langle X,Y \rangle$ $E[XY]$

\begin{aligned} ⟨ z, z ⟩ & = ⟨ \hat{z} + ϵ, \hat{z} + ϵ ⟩ \\ = ⟨ \hat{z}, \hat{z} ⟩ + 2 ⟨ \hat{z}, ϵ ⟩ + ⟨ ϵ, ϵ ⟩ \\ = ⟨ \hat{z}, \hat{z} ⟩ + ⟨ ϵ, ϵ ⟩ \end{aligned}

$\begin{align*} \langle \mathbf{z} , \mathbf{z} \rangle &= \langle \hat{\mathbf{z}} + \boldsymbol{\epsilon}, \hat{\mathbf{z}} + \boldsymbol{\epsilon} \rangle \\ &= \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + 2 \langle \hat{\mathbf{z}},\boldsymbol{\epsilon} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle \\ &= \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle \end{align*}$

Где последняя строка следует из того факта, что (т. Е. Это и ортогональны). Вы можете доказать, что и ортогональны, основываясь на том, как обычная регрессия наименьших квадратов строит . $\langle \hat{\mathbf{z}},\boldsymbol{\epsilon} \rangle = 0$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon} = \mathbf{z}- \hat{\mathbf{z}}$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon}$ $\hat{\mathbf{z}}$

$\hat{\mathbf{z}}$ является линейной проекцией из на подпространство , определенное линейной оболочкой из регрессоры , , и т.д .... Остаточный ортогонален всему этому подпространству, поэтому (который находится в диапазоне , и т. д. ...) ортогональный . $\mathbf{z}$ $\mathbf{x}_1$ $\mathbf{x}_2$ $\boldsymbol{\epsilon}$ $\hat{\mathbf{z}}$ $\mathbf{x}_1$ $\mathbf{x}_2$ $\boldsymbol{\epsilon}$

Обратите внимание, что как я определил как скалярное произведение, - просто еще один способ написания (т. е. SSTO = SSR + SSE) $\langle .,.\rangle$ $\langle \mathbf{z} , \mathbf{z} \rangle = \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle$ $\sum_i (y_i - \bar{y})^2 = \sum_i (\hat{y}_i - \bar{y})^2 + \sum_i (y_i - \hat{y}_i)^2$

— Мэтью Ганн
источник

8

Весь смысл в том, что некоторые векторы ортогональны, а затем используют теорему Пифагора.

Рассмотрим многомерную линейную регрессию . Мы знаем, что оценщик OLS равен . Теперь рассмотрим оценку $Y = X\beta + \epsilon$ $\hat{\beta} = (X^tX)^{-1}X^tY$

$\hat{Y} = X\hat{\beta} = X(X^tX)^{-1}X^tY = HY$ (матрица H также называется "шляпной" матрицей)

где - ортогональная проекционная матрица Y на . Теперь у нас есть $H$ $S(X)$

$Y - \hat{Y} = Y - HY = (I - H)Y$

где - матрица проекции на ортогональное дополнение которое является . Таким образом, мы знаем, что и ортогональны. $(I-H)$ $S(X)$ $S^{\bot}(X)$ $Y-\hat{Y}$ $\hat{Y}$

Теперь рассмотрим подмодель $Y = X_0\beta_0 + \epsilon$

где и аналогично у нас есть оценщик OLS и оценка и с матрицей проекции на . Точно так же у нас есть и ортогональны. И сейчас $X = [X_0 | X_1 ]$ $\hat{\beta_0}$ $\hat{Y_0}$ $H_0$ $S(X_0)$ $Y - \hat{Y_0}$ $\hat{Y_0}$

$\hat{Y} - \hat{Y_0} = HY - H_0Y = HY - H_0HY = (I - H_0)HY$

где снова - матрица ортогональной проекции на дополнении к которое является . Таким образом, мы имеем ортогональность и . Итак, в конце концов мы имеем $(I-H_0)$ $S(X_0)$ $S^{\bot}(X_0)$ $\hat{Y} - \hat{Y_0}$ $\hat{Y_0}$

$||Y - \hat{Y}||^2 = ||Y||^2 - ||\hat{Y}||^2 = ||Y - \hat{Y_0}||^2 + ||\hat{Y_0}||^2 - ||\hat{Y} - \hat{Y_0}||^2 - ||\hat{Y_0}||^2$

и, наконец, $||Y - \hat{Y_0}||^2 = ||Y - \hat{Y}||^2 + ||\hat{Y} - \hat{Y_0}||^2$

Наконец, среднее значение - это просто при рассмотрении нулевой модели . $\bar{Y}$ $\hat{Y_0}$ $Y = \beta_0 + e$

— Лукаш Град
источник

Спасибо за ваш ответ! Что такое S () (как в S (X) в вашем посте)?

— Bluemouse

S (X)

$S(X)$ - подпространство, порожденное столбцами матрицы

X

$X$

— Лукаш Град,