Метод максимального правдоподобия и метод наименьших квадратов

В чем основное различие между оценкой максимального правдоподобия (MLE) и оценкой наименьших квадратов (LSE)?

Почему мы не можем использовать MLE для прогнозирования значений в линейной регрессии и наоборот? $y$

Любая помощь по этой теме будет принята с благодарностью.

Вы можете использовать MLE в линейной регрессии, если хотите. Это может даже иметь смысл, если распределение ошибок не является нормальным и ваша цель - получить «наиболее вероятную» оценку, а не ту, которая минимизирует сумму квадратов.

— Ричард Харди

При нормальном допущении ошибки, как это обычно предполагается в линейной регрессии, MLE и LSE одинаковы!

— TrynnaDoStat,

Поищите на нашем сайте теорему Гаусса-Маркова .

— whuber

Спасибо за все отклики. Теперь это имеет смысл. При поиске этой темы в сети я наткнулся на эту статью. Может быть, это также помогает: radfordneal.wordpress.com/2008/08/09/…

— evros

Ответ также предоставляется по адресу stats.stackexchange.com/questions/12562/… .

— whuber

Ответы:

Я хотел бы дать прямой ответ.

В чем основное различие между оценкой максимального правдоподобия (MLE) и оценкой наименьших квадратов (LSE)?

Как прокомментировал @TrynnaDoStat, минимизация квадратичной ошибки эквивалентна максимизации вероятности в этом случае. Как сказано в Википедии ,

В линейной модели, если ошибки принадлежат нормальному распределению, оценки наименьших квадратов также являются оценками максимального правдоподобия.

они могут рассматриваться как одинаковые в вашем случае,

$y$

Y_{i} = λ_{1} X_{i} + λ_{2} + ϵ_{i} where ϵ \sim N (0, σ^{2})

$Y_i=\lambda_1X_i+\lambda_2+\epsilon_i \quad\text{ where }\epsilon\thicksim N(0,\sigma^2)$

L (Y_{1}, \dots, Y_{n}; λ_{1}, λ_{2}, σ^{2}) = \frac{1}{(2 π)^{\frac{n}{2} σ^{n}}} e x p (\frac{- 1}{2 σ^{2}} (\sum_{i = 1}^{n} (Y_{i} - λ_{1} X_{i} - λ_{2})^{2}))

$L(Y_1,\dots,Y_n;\lambda_1,\lambda_2,\sigma^2)=\frac{1}{(2\pi)^{\frac{n}{2}\sigma^n}}exp(\frac{-1}{2\sigma^2}(\sum_{i=1}^n(Y_i-\lambda_1X_i-\lambda_2)^2))$

\sum_{i = 1}^{n} (Y_{i} - λ_{1} X_{i} - λ_{2})^{2}

$\sum_{i=1}^n(Y_i-\lambda_1X_i-\lambda_2)^2$

$y$

$y$

— Лернер Чжан
источник

Возможно, вы захотите определить «этот случай» немного более четко, поскольку в целом максимальная вероятность и наименьшие квадраты - это не одно и то же.

— Мэтью Ганн,

@MatthewGunn Да, я использовал "эквивалент" кроме "то же самое".

— Лернер Чжан

Было бы здорово, если бы вы дали нам пример, где линейная модель следует за ненормальным распределением ошибок, и как вы используете MLE в таком случае для оценки наилучших коэффициентов. Если это невозможно, по крайней мере, вы можете указать нам правильный источник, который демонстрирует это с помощью линейных моделей, таких как регрессия Пуассона

— VM_AI

$L_1$ $L_2$

$L_2$ $L_2$

отслеживание данных
стохастические параметры
слабые ограничения

Профессиональные приложения не просто соответствуют данным, они проверяют:

если параметр является значимым
если ваш набор данных имеет выбросы
какой выброс можно допустить, поскольку он не наносит вреда производительности
какое измерение следует убрать, так как оно не влияет на степень свободы

Также существует огромное количество специализированных статистических тестов для гипотез. Это не обязательно относится ко всем оценкам ОД или должно быть, по крайней мере, подтверждено доказательством.

$L_2$

$\mathbf{X\beta}=\mathbf{L}+\mathbf{r}$ $(\mathbf{X}^{T}\mathbf{X})^{-1}$ $L_2$

Не стесняйтесь спрашивать подробности.

— нал
источник