Модель линейной регрессии
Y= Хβ+ ϵ , гдеε ~ N( 0 , яσ2)
Y∈Rn , иX∈Rn×pβ∈Rp
Обратите внимание, что наша ошибка модели (остаточная) равна . Наша цель - найти вектор s, который минимизирует квадрат нормы этой ошибки.ϵ=Y−XββL2
Наименьших квадратов
Учитывая данные где каждый является мерным, мы стремимся найти:(x1,y1),...,(xn,yn)xip
βˆLS=argminβ||ϵ||2=argminβ||Y−Xβ||2=argminβ∑i=1n(yi−xiβ)2
Максимальная вероятность
Используя вышеприведенную модель, мы можем настроить вероятность данных с учетом параметров как:β
L(Y|X,β)=∏i=1nf(yi|xi,β)
где - это pdf нормального распределения со средним 0 и дисперсией . Подключить его:f(yi|xi,β)σ2
L(Y|X,β)=∏i=1n12πσ2−−−−√e−(yi−xiβ)22σ2
Теперь, как правило, когда дело касается вероятностей, математически легче взять журнал перед продолжением (продукты становятся суммами, экспоненты уходят), так что давайте сделаем это.
logL(Y|X,β)=∑i=1nlog(12πσ2−−−−√)−(yi−xiβ)22σ2
Поскольку нам нужна оценка максимального правдоподобия, мы хотим найти максимум уравнения, приведенного выше, относительно . Первый член не влияет на нашу оценку , поэтому мы можем его игнорировать:βββ
βˆMLE=argmaxβ∑i=1n−(yi−xiβ)22σ2
Обратите внимание, что знаменатель является константой относительно . Наконец, обратите внимание, что перед суммой стоит отрицательный знак. Таким образом, найти максимум отрицательного числа - это все равно, что найти его минимум без отрицательного числа. Другими словами:β
βˆMLE=argminβ∑i=1n(yi−xiβ)2=βˆLS
Напомним, что для того, чтобы это работало, мы должны были сделать определенные допущения модели (нормальность слагаемых ошибок, среднее значение 0, постоянная дисперсия). Это делает наименьшие квадраты эквивалентными MLE при определенных условиях. Смотрите здесь и здесь для дальнейшего обсуждения.
Для полноты заметим, что решение можно записать так:
β=(XTX)−1XTy