Вывод оценок максимального правдоподобия
Предположим, что у нас есть случайных векторов, каждый из которых имеет размер : где каждый случайный вектор может быть интерпретируется как наблюдение (точка данных) через переменных. Если каждый указан как многовариантный гауссовский вектор:р Х ( 1 ) , Х ( 2 ) , . , , , X ( m ) p X ( i )mpX(1),X(2),...,X(m)pX(i)
X(i)∼Np(μ,Σ)
Где параметры неизвестны. Чтобы получить их оценку, мы можем использовать метод максимального правдоподобия и максимизировать функцию логарифмического правдоподобия.μ,Σ
Обратите внимание, что в силу независимости случайных векторов общая плотность данных является произведением отдельных плотностей. , то есть . Взятие логарифма дает функцию правдоподобияΠ м я = 1 ф X ( я ) ( х ( я ) ; М , Е ){X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l(μ,Σ|x(i))=log∏i=1mfX(i)(x(i)|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l(μ,Σ;)=−mp2log(2π)−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)
Деривацияμ^
Чтобы взять производную по и приравнять к нулю, мы будем использовать следующий тождество матричного исчисления:μ
wAA∂wTAw∂w=2Aw если
не зависит от и симметричен.wAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
Который часто называют вектором выборки .
ДеривацияΣ^
Вывод MLE для ковариационной матрицы требует больше работы и использования следующих свойств линейной алгебры и исчисления:
- След инвариантен относительно циклических перестановок матричных произведений:tr[ACB]=tr[CAB]=tr[BCA]
- Поскольку является скалярным, мы можем взять его след и получить то же значение:x t A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
Объединение этих свойств позволяет нам рассчитать
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Который является внешним произведением вектора с самим собой.x
Теперь мы можем переписать функцию логарифмического правдоподобия и вычислить производную по (примечание постоянно) СΣ−1C
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Приравнивая к нулю и решая дляΣ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
источники