Связь между MLE и наименьшими квадратами в случае линейной регрессии

Хасти и Тибширани упоминают в разделе 4.3.2 своей книги, что в случае линейной регрессии подход наименьших квадратов фактически является частным случаем максимальной вероятности. Как мы можем доказать этот результат?

PS: не жалейте математических деталей.

regression maximum-likelihood least-squares

— Прадные Джоши
источник

Это не особый случай: они просто идентичны, когда распределение ошибок нормальное.

— Zhanxiong

Модель линейной регрессии

$Y = X\beta + \epsilon$ , где $\epsilon \sim N(0,I\sigma^2)$

$Y \in \mathbb{R}^{n}$ , и $X \in \mathbb{R}^{n \times p}$ $\beta \in \mathbb{R}^{p}$

Обратите внимание, что наша ошибка модели (остаточная) равна . Наша цель - найти вектор s, который минимизирует квадрат нормы этой ошибки. ${\bf \epsilon = Y - X\beta}$ $\beta$ $L_2$

Наименьших квадратов

Учитывая данные где каждый является мерным, мы стремимся найти: $(x_1,y_1),...,(x_n,y_n)$ $x_{i}$ $p$

{\hat{β}}_{L S} = \underset{β}{argmin} | | ϵ | |^{2} = \underset{β}{argmin} | | Y - X β | |^{2} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2}

$\widehat{\beta}_{LS} = {\underset \beta {\text{argmin}}} ||{\bf \epsilon}||^2 = {\underset \beta {\text{argmin}}} ||{\bf Y - X\beta}||^2 = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} ( y_i - x_{i}\beta)^2$

Максимальная вероятность

Используя вышеприведенную модель, мы можем настроить вероятность данных с учетом параметров как: $\beta$

L (Y | X, β) = \prod_{i = 1}^{n} f (y_{i} | x_{i}, β)

$L(Y|X,\beta) = \prod_{i=1}^{n} f(y_i|x_i,\beta)$

где - это pdf нормального распределения со средним 0 и дисперсией . Подключить его: $f(y_i|x_i,\beta)$ $\sigma^2$

L (Y | X, β) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}}

$L(Y|X,\beta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_i - x_i\beta)^2}{2\sigma^2}}$

Теперь, как правило, когда дело касается вероятностей, математически легче взять журнал перед продолжением (продукты становятся суммами, экспоненты уходят), так что давайте сделаем это.

\log L (Y | X, β) = \sum_{i = 1}^{n} \log (\frac{1}{\sqrt{2 π σ^{2}}}) - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\log L(Y|X,\beta) = \sum_{i=1}^{n} \log(\frac{1}{\sqrt{2\pi\sigma^2}}) -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Поскольку нам нужна оценка максимального правдоподобия, мы хотим найти максимум уравнения, приведенного выше, относительно . Первый член не влияет на нашу оценку , поэтому мы можем его игнорировать: $\beta$ $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmax} \sum_{i = 1}^{n} - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmax}}} \sum_{i=1}^{n} -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Обратите внимание, что знаменатель является константой относительно . Наконец, обратите внимание, что перед суммой стоит отрицательный знак. Таким образом, найти максимум отрицательного числа - это все равно, что найти его минимум без отрицательного числа. Другими словами: $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2} = {\hat{β}}_{L S}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} (y_i - x_i\beta)^2 = \widehat{\beta}_{LS}$

Напомним, что для того, чтобы это работало, мы должны были сделать определенные допущения модели (нормальность слагаемых ошибок, среднее значение 0, постоянная дисперсия). Это делает наименьшие квадраты эквивалентными MLE при определенных условиях. Смотрите здесь и здесь для дальнейшего обсуждения.

Для полноты заметим, что решение можно записать так:

β = (X^{T} X)^{- 1} X^{T} y

${\bf \beta = (X^TX)^{-1}X^Ty}$

— ilanman
источник