Короткий ответ
Плотность вероятности многомерной гауссовской распределенной переменной со средним значением связана с квадратом евклидова расстояние между средним и переменной ( ) или, другими словами, сумма квадратов.x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μ−x|22
Длинный ответ
Если вы умножите несколько гауссовых распределений для ваших ошибок, где вы предполагаете равные отклонения, то вы получите сумму квадратов.n
L(μj,xij)=P(xij|μj)=∏ni=112πσ2√exp[−(xij−μi)22σ2]=(12πσ2√)nexp[−∑ni=1(xij−μi)22σ2]
или в удобной логарифмической форме:
log(L(μj,xij))=nlog(12πσ2−−−−√)−12σ2∑i=1n(xij−μj)2
Поэтому оптимизация для минимизации суммы квадратов равна максимизации (логарифмической) вероятности (т. Е. Произведение нескольких гауссовских распределений или многомерного гауссовского распределения).μ
Именно этот вложенный квадрат разности внутри экспоненциальной структуры , которого другие распределения не имеют.(μ−x)exp[(xi−μ)2]
Сравните, например, со случаем для распределений Пуассона
log(L)=log(∏μxijjxij!exp[−μj])=−∑μj−∑log(xij!)+∑log(μj)xij
который имеет максимум, когда следующее минимизировано:
∑μj−log(μj)xij
который другой зверь.
Кроме того (история)
История нормального распределения (игнорирование перехода deMoivre к этому распределению как приближения для биномиального распределения) фактически является обнаружением распределения, которое делает MLE соответствующим методу наименьших квадратов (а не методом наименьших квадратов, являющимся методом который может выразить MLE нормального распределения, сначала появился метод наименьших квадратов, затем - распределение Гаусса)
Обратите внимание, что Гаусс, соединяя «метод максимального правдоподобия» с «методом наименьших квадратов», придумал «гауссово распределение», , как единственное распределение ошибок, которое приводит нас к сделать эту связь между двумя методами.e−x2
Из перевода Чарльза Генри Дэвиса (Теория движения небесных тел, движущихся вокруг Солнца в конических сечениях. Перевод Гаусса "Theoria motus", с приложением) ...
Гаусс определяет:
Соответственно, вероятность присвоения каждой ошибке будет выражаться функцией которую мы будем обозначать .ΔΔψΔ
(Курсив сделан мной)
И продолжает ( в разделе 177 с. 258 ):
... откуда легко сделать вывод, что должно быть постоянной величиной. который мы будем обозначать через . Следовательно, у нас есть обозначает основание гиперболического логарифма через и принимаетψ′ΔΔklog ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
eConstant=logx
в конечном итоге (после нормализации и реализации ) вk<0
ψΔ=hπ−−√e−hhΔΔ
Автор StackExchangeStrike