Как вывести оценку наименьших квадратов для множественной линейной регрессии?

30

В случае простой линейной регрессии вы можете получить оценку наименьших квадратов , что вам не нужно знать чтобы оценить $y=\beta_0+\beta_1x$ $\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}$ $\hat\beta_0$ $\hat\beta_1$

Предположим, у меня есть , как мне получить без оценки ? или это невозможно? $y=\beta_1x_1+\beta_2x_2$ $\hat\beta_1$ $\hat\beta_2$

— Sabre CN
источник

1

Вы можете опустить одну из переменных и все же получить несмещенную оценку другой, если они независимы.

— Давид25272

51

Вывод в матричной записи

Начиная с , что на самом деле так же, как $y= Xb +\epsilon$

$\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \end{bmatrix} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1K} \\ x_{21} & x_{22} & \cdots & x_{2K} \\ \vdots & \ddots & \ddots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{NK} \end{bmatrix} * \begin{bmatrix} b_{1} \\ b_{2} \\ \vdots \\ b_{K} \end{bmatrix} + \begin{bmatrix} \epsilon_{1} \\ \epsilon_{2} \\ \vdots \\ \epsilon_{N} \end{bmatrix}$

все это сводится к minimzing : $e'e$

$\epsilon'\epsilon = \begin{bmatrix} e_{1} & e_{2} & \cdots & e_{N} \\ \end{bmatrix} \begin{bmatrix} e_{1} \\ e_{2} \\ \vdots \\ e_{N} \end{bmatrix} = \sum_{i=1}^{N}e_{i}^{2}$

Таким образом, минимизация дает нам: $e'e'$

$min_{b}$ $e'e = (y-Xb)'(y-Xb)$

$min_{b}$ $e'e = y'y - 2b'X'y + b'X'Xb$

$\frac{\partial(e'e)}{\partial b} = -2X'y + 2X'Xb \stackrel{!}{=} 0$

$X'Xb=X'y$

$b=(X'X)^{-1}X'y$

Последнее математическое условие, условие второго порядка для минимума требует, чтобы матрица была положительно определенной. Это требование выполняется, если имеет полный ранг. $X'X$ $X$

Более точный вывод, который проходит через все этапы в большей глубине, можно найти в http://economictheoryblog.com/2015/02/19/ols_estimator/

— Андреас Дибиаси
источник

3

Этот вывод - именно то, что я искал. Нет пропущенных шагов. Удивительно, насколько сложно найти такой же.

— Джавадба

1

В матричном уравнении второе не должно *быть +? Кроме того, не должно ли быть вместо чтобы размеры соответствовали?

b_{K}

$b_K$

b_{N}

$b_N$

— Алексис Олсон

Алексис Олсон, ты прав! Я отредактировал свой ответ.

— Андреас Дибиаси

13

Можно оценить только один коэффициент в множественной регрессии без оценки других.

Оценка получается путем удаления эффектов от других переменных и последующей регрессии остатков отношению к остаткам . Это объясняется и иллюстрируется. Как именно один контролирует другие переменные? и Как нормализовать (а) коэффициент регрессии? , Прелесть этого подхода в том, что он не требует исчисления, линейной алгебры, может быть визуализирован с использованием только двумерной геометрии, численно стабилен и использует только одну фундаментальную идею множественной регрессии: идею исключения (или «контроля за»). ) влияние одной переменной. $\beta_1$ $x_2$ $y$ $x_1$

В данном случае множественная регрессия может быть выполнена с использованием трех обычных шагов регрессии:

Регресс на (без постоянного члена!). Пусть подгонка будет . Оценка: Поэтому остатки Геометрически, - это то, что осталось от после вычитания его проекции на . $y$ $x_2$ $y = \alpha_{y,2}x_2 + \delta$
$α_{y, 2} = \frac{\sum_{i} y_{i} x_{2 i}}{\sum_{i} x_{2 i}^{2}} .$ $\alpha_{y,2} = \frac{\sum_i y_i x_{2i}}{\sum_i x_{2i}^2}.$ $δ = y - α_{y, 2} x_{2} .$ $\delta = y - \alpha_{y,2}x_2.$ $\delta$ $y$ $x_2$
Регресс на (без постоянного члена). Пусть подгонка будет . Оценка составляетОстатки:Геометрически, - это то, что осталось от после вычитания его проекции на . $x_1$ $x_2$ $x_1 = \alpha_{1,2}x_2 + \gamma$
$α_{1, 2} = \frac{\sum_{i} x_{1 i} x_{2 i}}{\sum_{i} x_{2 i}^{2}} .$ $\alpha_{1,2} = \frac{\sum_i x_{1i} x_{2i}}{\sum_i x_{2i}^2}.$ $γ = x_{1} - α_{1, 2} x_{2} .$ $\gamma = x_1 - \alpha_{1,2}x_2.$ $\gamma$ $x_1$ $x_2$
Регресс on (без постоянного члена). Это оценкаПодгонка будет . Геометрически, является компонентом (который представляет с ) в направлении (который представляет с ). $\delta$ $\gamma$
${\hat{β}}_{1} = \frac{\sum_{i} δ_{i} γ_{i}}{\sum_{i} γ_{i}^{2}} .$ $\hat\beta_1 = \frac{\sum_i \delta_i \gamma_i}{\sum_i \gamma_i^2}.$ $\delta = \hat\beta_1 \gamma + \varepsilon$ $\hat\beta_1$ $\delta$ $y$ $x_2$ $\gamma$ $x_1$ $x_2$

Обратите внимание, что не был оценен. $\beta_2$ Его легко можно восстановить из того, что было получено до сих пор (точно так же, как в обычном регрессионном случае легко получить из оценки наклона ). являются остатки для двухмерного регрессии на и . $\hat\beta_0$ $\hat\beta_1$ $\varepsilon$ $y$ $x_1$ $x_2$

Сильна параллель с обычной регрессией: шаги (1) и (2) являются аналогами вычитания средних в обычной формуле. Если вы позволите быть вектором единиц, вы фактически восстановите обычную формулу. $x_2$

Это обобщает очевидным образом регрессию с более чем двумя переменными: для оценки , регрессии и отдельно для всех остальных переменных, а затем регрессии их остатков друг против друга. В этот момент ни один из других коэффициентов в множественной регрессии еще не был оценен. $\hat\beta_1$ $y$ $x_1$ $y$

— Whuber
источник

1

Отличный ответ, вот общая теорема en.wikipedia.org/wiki/…

— JohnK

4

Обычная оценка наименьших квадратов является линейной функцией переменной отклика $\beta$ . Проще говоря, оценка OLS коэффициентов, , может быть записана с использованием только зависимой переменной ( ) и независимых переменных ( '). $\beta$ $Y_i$ $X_{ki}$

Чтобы объяснить этот факт для общей регрессионной модели, вам необходимо понять небольшую линейную алгебру. Предположим, вы хотите оценить коэффициенты в модели множественной регрессии, $(\beta_0, \beta_1, ...,\beta_k)$

Y_{i} = β_{0} + β_{1} X_{1 i} + . . . + β_{k} X_{k i} + ϵ_{i}

$Y_i = \beta_0+\beta_1X_{1i}+...+\beta_kX_{ki}+\epsilon_i$

где для . Матрица проектирования представляет собой матрицу где каждый столбец содержит наблюдений зависимой переменной . Вы можете найти много объяснений и выкладок здесь формул используются для расчета оценки коэффициентов , что $\epsilon_i \overset{iid}{\sim} N(0,\sigma^2)$ $i=1,...,n$ $\mathbf{X}$ $n\times k$ $n$ $k^{th}$ $X_k$ $\boldsymbol{\hat{\beta}}=(\hat{\beta}_0, \hat{\beta}_1, ..., \hat{\beta}_k)$

\hat{β} = (X^{'} X)^{- 1} X^{'} Y

$\boldsymbol{\hat{\beta}}=(\mathbf{X}^\prime \mathbf{X})^{-1}\mathbf{X}^\prime \mathbf{Y}$

предполагая, что существует обратное . Расчетные коэффициенты являются функциями данных, а не других расчетных коэффициентов. $(\mathbf{X}^\prime \mathbf{X})^{-1}$

— caburke
источник

У меня есть дополнительный вопрос, в случае простой регрессии вы делаете тогда становится матрицей и , затем выполните . Как мне переписать уравнение в моем случае?

y_{i} = β_{0} + β_{1} \bar{x} + β_{1} (x_{i} - \bar{x}) + e_{i}

$y_i=\beta_0+\beta_1\bar x+\beta_1(x_i-\bar x)+e_i$

X

$X$

(1, . . ., 1)

$(1,...,1)$

(x_{1} - \bar{x}, . . ., x_{n} - \bar{x})

$(x_1-\bar x,...,x_n-\bar x)$

\hat{β} = (X^{'} X)^{(} - 1) X^{'} Y

$\hat\beta=(X'X)^(-1)X'Y$

— Сабер CN

И еще один вопрос, относится ли это к случаям, когда и не являются линейными, но модель все еще линейна? Например, кривая затухания , могу ли я заменить экспоненту и чтобы она стала моим первоначальным вопросом?

x_{1}

$x_1$

x_{2}

$x_2$

y = β_{1} e^{x_{1} t} + β_{2} e^{x_{2} t}

$y=\beta_1 e^{x_1t}+\beta_2 e^{x_2t}$

x_{1}^{'}

$x_1'$

x_{2}^{'}

$x_2'$

— Сабер CN

В своем первом комментарии вы можете отцентрировать переменную (вычесть из нее ее среднее значение) и использовать ее в качестве независимой переменной. Поиск "стандартизированной регрессии". Формула, которую вы написали в терминах матриц, неверна. Что касается вашего второго вопроса, да, вы можете сделать это, линейная модель - это линейная модель в , поэтому, если равен линейной комбинации из , у вас все в порядке.

β

$\beta$

y

$y$

β

$\beta$

— Caburke

2

(+1). Но не должно ли это быть " matrix" вместо ?

n \times k

$n \times k$

k \times n

$k \times n$

— миура

3

Небольшое небольшое замечание о теории и практике. Математически можно оценить по следующей формуле: $\beta_0, \beta_1, \beta_2 ... \beta_n$

\hat{β} = (X^{'} X)^{- 1} X^{'} Y

$\hat{\beta} = (X'X)^{-1} X'Y$

где - исходные входные данные, а - переменная, которую мы хотим оценить. Это следует из минимизации ошибки. Я докажу это, прежде чем высказать небольшое практическое замечание. $X$ $Y$

Пусть - ошибка, которую линейная регрессия совершает в точке . Затем: $e_i$ $i$

e_{i} = y_{i} - \hat{y_{i}}

$e_i = y_i - \hat{y_i}$

Общая квадратичная ошибка, которую мы делаем сейчас:

\sum_{i = 1}^{n} e_{i}^{2} = \sum_{i = 1}^{n} (y_{i} - \hat{y_{i}})^{2}

$\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y_i})^2$

Поскольку у нас есть линейная модель, мы знаем, что:

\hat{y_{i}} = β_{0} + β_{1} x_{1, i} + β_{2} x_{2, i} + . . . + β_{n} x_{n, i}

$\hat{y_i} = \beta_0 + \beta_1 x_{1,i} + \beta_2 x_{2,i} + ... + \beta_n x_{n,i}$

Который может быть переписан в матричной записи как:

\hat{Y} = X β

$\hat{Y} = X\beta$

Мы знаем это

\sum_{i = 1}^{n} e_{i}^{2} = E^{'} E

$\sum_{i=1}^n e_i^2 = E'E$

Мы хотим минимизировать общую квадратную ошибку, чтобы следующее выражение было как можно меньше

E^{'} E = (Y - \hat{Y})^{'} (Y - \hat{Y})

$E'E = (Y-\hat{Y})' (Y-\hat{Y})$

Это равно:

E^{'} E = (Y - X β)^{'} (Y - X β)

$E'E = (Y-X\beta)' (Y-X\beta)$

Переписывание может показаться запутанным, но это следует из линейной алгебры. Обратите внимание, что матрицы ведут себя подобно переменным, когда мы умножаем их в некоторых отношениях.

Мы хотим найти значения , чтобы это выражение было как можно меньше. Нам нужно будет дифференцировать и установить производную равной нулю. Здесь мы используем цепное правило. $\beta$

\frac{d E^{'} E}{d β} = - 2 X^{'} Y + 2 X^{'} X β = 0

$\frac{dE'E}{d\beta} = - 2 X'Y + 2 X'X\beta = 0$

Это дает:

X^{'} X β = X^{'} Y

$X'X\beta = X'Y$

Так, что в конечном итоге:

β = (X^{'} X)^{- 1} X^{'} Y

$\beta = (X'X)^{-1} X'Y$

Математически мы, кажется, нашли решение. Однако есть одна проблема, которая заключается в том, что очень трудно вычислить, если матрица очень очень большая. Это может привести к проблемам с числовой точностью. Другой способ найти оптимальные значения для в этой ситуации - использовать метод градиентного спуска. Функция, которую мы хотим оптимизировать, является неограниченной и выпуклой, поэтому мы также будем использовать метод градиента на практике, если это будет необходимо. $(X'X)^{-1}$ $X$ $\beta$

— Винсент Вармердам
источник

за исключением того, что вам на самом деле не нужно вычислять ...

(X^{'} X)^{- 1}

$(X'X)^{-1}$

— user603

действительная точка. Можно также использовать процесс Грамма Шмидта, но я просто хотел отметить, что поиск оптимальных значений для вектора также может быть выполнен численно из-за выпуклости.

β

$\beta$

— Винсент Вармердам

2

Простой вывод можно сделать, просто используя геометрическую интерпретацию LR.

Линейный регрессионный можно интерпретировать как проекции на колонку пространства . Таким образом, ошибка, ортогонален к колонке пространства . $Y$ $X$ $\hat{\epsilon}$ $X$

Следовательно, внутреннее произведение между и ошибкой должно быть 0, т.е. $X'$

$<X', y-X\hat{\beta}> = 0$

$X'y - X'X\hat{\beta} = 0$

$X'y = X'X\hat{\beta}$

Что подразумевает это,

$(X'X)^{-1}X'y = \hat{\beta}$ .

Теперь то же самое можно сделать:

(1) Проецирование на (ошибка ), , $Y$ $X_2$ $\delta = Y-X_2 \hat{D}$ $\hat{D} = (X_2'X_2)^{-1}X_2'y$

(2) Проецирование на (ошибка ), , $X_1$ $X_2$ $\gamma = X_1 - X_2 \hat{G}$ $\hat{G} = (X_1'X_1)^{-1}X_1X_2$

и наконец,

(3) Проецирование на , $\delta$ $\gamma$ $\hat{\beta}_1$

— Dnaiel
источник