Чтобы расширить мой комментарий - это зависит. Если вы только пытаетесь понять основы, то возможность найти экстремумы функций дает вам правильный путь (хотя во многих практических случаях MLE вероятность максимизируется численно, и в этом случае вам потребуются некоторые другие навыки, а также некоторые Основное исчисление).
Я оставлю в стороне хорошие простые случаи, когда вы получаете явные алгебраические решения. Тем не менее, исчисление часто очень полезно.
Я буду принимать независимость во всем. Давайте рассмотрим простейший случай оптимизации с 1 параметром. Сначала мы рассмотрим случай, когда мы можем взять производные и отделить функцию параметра и статистику.
Рассмотрим плотность G a m m a (α,1)
еИкс( x ; α ) = 1Γ ( α )Иксα - 1ехр( - х ) ;х > 0 ;α > 0
Тогда для выборки размера N вероятность равна
L (α; x )= ∏я = 1NеИкс( хя; а )
и, следовательно, логарифмическая правдоподобность равна
l (α; x )= ∑я = 1NпереИкс( хя; а )= ∑я = 1Nпер( 1Γ ( α )Иксα - 1яехр( - хя) )
= ∑я = 1N- ИнΓ(α)+(α−1)lnxi−xi
= - n lnΓ ( α ) +(α-1) SИкс- н х¯
гдеSИкс= ∑Nя = 1перИкся . Принимая производные,
ddαl (α; x )= ddα( - n lnΓ ( α ) +(α-1) SИкс- н х¯)
= - n Γ'( α )Γ ( α )+ SИкс
= - n ψ ( α ) + SИкс
Так что, если мы устанавливаем , что к нулю и попытаться решить для альфа , мы можем получить это:
ψ ( α ) = LN G ( х )α^ψ ( α^) = lnG ( х )
ψ ( ⋅ )G ( ⋅ )
α^
ψ ( α^) = г
г= lnG ( х )
Это не имеет решения с точки зрения элементарных функций, оно должно быть рассчитано численно; по крайней мере, мы смогли получить функцию параметра с одной стороны и функцию данных с другой. Существуют различные алгоритмы нахождения нуля, которые можно использовать, если у вас нет явного способа решения уравнения (даже если вы без производных, например, есть двоичный раздел).
е( x ; μ ) = 14сечь2( х - μ2) .
μ
θ
еИкс( x ; θ ) = 1π( 1 + ( х - θ )2),
В целом вероятность здесь не имеет уникального локального максимума, а несколько локальных максимумов. Если вы обнаружили на локальный максимум, может быть другой, больше одного в другом месте. (Иногда люди сосредотачиваются на определении локального максимума, ближайшего к медиане, или чего-то подобного.)
( 0 , θ )
В других случаях пространство параметров может быть дискретным.
Иногда поиск максимума может быть довольно сложным.
И это только выборка проблем с одним параметром. Когда у вас есть несколько параметров, все становится более сложным.