Экспоненциальная семья: наблюдаемая и ожидаемая достаточная статистика


10

Мой вопрос возникает из прочтения чтения Минки «Оценка распределения Дирихле» , в котором без доказательств говорится следующее в контексте получения оценки максимального правдоподобия для распределения Дирихле на основе наблюдений случайных векторов:

Как всегда в случае экспоненциального семейства, когда градиент равен нулю, ожидаемые достаточные статистические данные равны наблюдаемым достаточным статистическим данным.

Я не видел оценки максимального правдоподобия в экспоненциальной семье, представленной таким образом, и я не нашел подходящих объяснений в своем поиске. Может ли кто-то предложить понимание взаимосвязи между наблюдаемой и ожидаемой достаточной статистикой и, возможно, помочь понять оценку максимального правдоподобия как минимизирующую их разницу?

Ответы:


11

Это обычное утверждение об экспоненциальной семье, но, по моему мнению, в большинстве случаев оно сформулировано таким образом, что может смутить менее опытного читателя. Потому что, взятый по номиналу, это можно интерпретировать как выражение «если наша случайная переменная следует распределению в семействе экспонент, то если мы возьмем выборку и вставим ее в достаточную статистику, мы получим истинное ожидаемое значение статистики ». Если бы это было так ... Более того, в нем не учитывается размер выборки, что может вызвать дальнейшую путаницу.

Экспоненциальная функция плотности

(1)еИкс(Икс)знак равночас(Икс)еη(θ)T(Икс)е-A(θ)

где - достаточная статистика.T(Икс)

Поскольку это плотность, она должна интегрироваться в единицу, поэтому ( является опорой X )SИксИкс

(2)SИксчас(Икс)еη(θ)T(Икс)е-A(θ)dИксзнак равно1

Eq. выполняется для всех θ, поэтому мы можем дифференцировать обе стороны относительно него:(2)θ

(3)θSИксчас(Икс)еη(θ)T(Икс)е-A(θ)dИксзнак равно(1)θзнак равно0

Меняя порядок дифференцирования и интегрирования, получаем

(4)SИксθ(час(Икс)еη(θ)T(Икс)е-A(θ))dИксзнак равно0

Проводя дифференцирование, мы имеем

(5)θ(час(Икс)еη(θ)T(Икс)е-A(θ))знак равноеИкс(Икс)[T(Икс)η'(θ)-A'(θ)]

Вставляя в ( 4 ) получаем(5)(4)

SИксеИкс(Икс)[T(Икс)η'(θ)-A'(θ)]dИксзнак равно0

(6)η'(θ)Е[T(Икс)]-A'(θ)знак равно0Е[T(Икс)]знак равноA'(θ)η'(θ)

Теперь мы спрашиваем: левая часть является действительным числом. Таким образом, правая часть также должна быть действительным числом, а не функцией . Следовательно, он должен оцениваться при конкретном θ , и это должно быть «истинное» θ , иначе в левой части мы не получили бы истинное ожидаемое значение T ( X ) . Чтобы подчеркнуть это, мы обозначаем истинное значение через θ 0 и переписываем ( 6 ) как(6)θθT(Икс)θ0(6)

(6а)Еθ0[T(Икс)]знак равноA'(θ)η'(θ)|θзнак равноθ0

Теперь перейдем к оценке максимального правдоподобия . Логарифмическая вероятность для выборки размера равнаN

L(θ|Икс)знак равноΣязнак равно1Nперчас(Икся)+η(θ)Σязнак равно1NT(Икся)-NA(θ)

Полагая его производную по равной 0, получим MLEθ0

(7)θ^(Икс):1NΣязнак равно1NT(Икся)знак равноA'(θ)η'(θ)|θзнак равноθ^(Икс)

Сравните с ( 6 а ) . Правые части не равны, так как мы не можем утверждать, что оценщик MLE достиг истинного значения. Так что ни левые стороны. Но помните, что уравнение 2 справедливо для всех & thetas и поэтому для & thetas также. Таким образом, шаги в уравнении 3 , 4 , 5 , 6 могут быть приняты по отношению к & thetas ; и таким образом , мы можем написать экв. 6 для & thetas :(7)(6a)2 θθ^3,4,5,6θ^6aθ^

(6b)Еθ^(Икс)[T(Икс)]знак равноA'(θ)η'(θ)|θзнак равноθ^(Икс)

что в сочетании с приводит нас к верному соотношению(7)

Еθ^(Икс)[T(Икс)]знак равно1NΣязнак равно1NT(Икся)

θ^(Икс)θИкс

Nзнак равно1


Не могли бы вы дополнительно уточнить, почему переход с 6a на 6b действителен, пожалуйста?
Теоден

1
(2)(3)(2) θθ^3,4,5,6θ^

@AlecosPapadopoulos ваше приведенное ниже доказательство предполагает, что то, что вы говорите с самого начала - «если наша случайная переменная следует распределению в семействе экспонент, то если мы возьмем выборку и вставим ее в достаточную статистику, мы получим истинное ожидаемое значение статистики "верно. Я имею в виду, что я всегда могу сделать это для (2), заменив его на наблюдаемый достаточный стат и получив результат. Что мне здесь не хватает? Я не совсем понимаю.
user10024395 14.12.16

6aθ6б

1
Не могли бы вы объяснить, почему мы можем поменять порядок дифференциации и интеграции в уравнении. (3) пожалуйста?
Markus777
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.