Попытка дополнить другие ответы ... Какая информация является информацией Фишера? Начать с функцией loglikelihood
в зависимости от & thetas для thetas ; ∈ thetas ; , пространства параметров. Предполагая некоторые условия регулярности, которые мы здесь не обсуждаем, имеем
E ∂
ℓ ( θ ) = logе( х ; θ )
θθ ∈ Θ(мы будем писать производные по параметру как точкикак здесь). Дисперсия информация Фишера
I(θ)=Еθ( ˙ л (θ))2=-Еθ ¨ л (θ)
последняя формула показываетчто это (отрицательный) кривизна функции loglikelihood. Часто можно найти оценку максимального правдоподобия (mle)
Е∂∂θℓ ( θ ) = Eθℓ˙(θ)=0I(θ)=Eθ(ℓ˙(θ))2=−Eθℓ¨(θ)
путем решения уравнения правдоподобия
˙ ℓ ( θ ) = 0, когда информация Фишера как дисперсия оценки
˙ ℓ ( θ ) велика, тогда решение этого уравнения будет очень чувствительным к данным, что дает надежду на высокие Точность MLE. Это подтверждается, по крайней мере, асимптотически, поскольку асимптотическая дисперсия mle является обратной информацией Фишера.
θℓ˙( θ ) = 0ℓ˙( θ )
Как мы можем интерпретировать это? - это информация о вероятности параметра θ из выборки. Это действительно можно интерпретировать только в относительном смысле, например, когда мы используем его для сравнения правдоподобия двух различных возможных значений параметров с помощью теста отношения правдоподобия ℓ ( θ 0 ) - ℓ ( θ 1 ) . Скорость изменения логарифмического правдоподобия является функцией оценки ˙ ℓ ( θ ), которая говорит нам, как быстро изменяется вероятность, и ее дисперсия I ( θ )ℓ ( θ )θℓ ( θ0) - ℓ ( θ1)ℓ˙( θ )я( θ )насколько это зависит от образца к образцу, при заданном значении paramiter, скажем . Уравнение (что действительно удивительно!)
I ( θ ) = - E θ ¨ ℓ ( θ )
говорит нам, что существует связь (равенство) между изменчивостью информации (вероятности) для данного значения параметра, θ 0 , и кривизна функции правдоподобия для этого значения параметра. Это удивительное соотношение между изменчивостью (дисперсией) этой статистики ˙ ℓ ( θ ) ∣ θ = θ 0θ0
я( θ ) = - Eθℓ¨( θ )
θ0ℓ˙( θ ) ∣θ = θ0и ожидаемое изменение вероятности, когда мы изменяем параметр
в некотором интервале вокруг
θ 0 (для тех же данных). Это действительно странно, удивительно и мощно!
θθ0
Так, какова функция вероятности? Обычно мы рассматриваем статистическую модель как семейство вероятностных распределений для данных x , проиндексированных параметром θ некоторого элемента в пространстве параметров Θ . Мы считаем эту модель истинной, если существует некоторое значение θ 0 ∈ Θ такое, что данные x фактически имеют распределение вероятностей f ( x ; θ 0 ){ ф( x ; θ ) , θ ∈ Θ }ИксθΘθ0∈ ΘИксе( х ; θ0), Таким образом, мы получаем статистическую модель путем встраивания истинного распределения вероятности данных в семейство вероятностных распределений. Но ясно, что такое вложение может быть сделано разными способами, и каждое такое вложение будет «истинной» моделью, и они будут давать разные функции правдоподобия. А без такого вложения нет функции правдоподобия. Кажется, что нам действительно нужна помощь, некоторые принципы того, как правильно выбрать вложение!е( х ; θ0)
Итак, что это значит? Это означает, что выбор функции правдоподобия говорит нам, как мы можем ожидать, что данные изменятся, если правда немного изменится. Но это на самом деле не может быть подтверждено данными, так как данные дают информацию только об истинной функции модели которая фактически генерировала данные, и ничего о всех других элементах в выбранной модели. Таким образом, мы видим, что выбор функции правдоподобия аналогичен выбору априора в байесовском анализе, он вводит информацию, не относящуюся к данным, в анализ. Давайте посмотрим на это в простом (несколько искусственном) примере и посмотрим на эффект вложения f ( x ; θ 0 )е( х ; θ0)е( х ; θ0) в модели по-разному.
Предположим, что определены как N ( μ = 10 , σ 2 = 1 ) . Итак, это истинное распределение, генерирующее данные. Теперь давайте встроим это в модель двумя различными способами: модель A и модель B.
A : X 1 , … , X n iid N ( μ , σ 2 = 1 ) , μ ∈ RИкс1, … , XNN( μ = 10 , σ2= 1 )
вы можете проверить, что это совпадает для μ = 10 .
A : X1, … , XN I N ( μ , σ2= 1 ) , µ ∈ RB : X1, … , XN I N ( μ , μ / 10 ) , μ > 0
μ = 10
Функции логарифмического правдоподобия становятся
ℓA( μ ) = - n2журнал( 2 π) - 12Σя( хя- μ )2ℓВ( μ ) = - n2журнал( 2 π) - н2журнал( μ / 10 ) - 102Σя( хя- μ )2μ
ℓ˙A( μ ) = n ( x¯- μ )ℓ˙В( μ ) = - n2 мк- 102Σя( хяμ)2- 15 н
ℓ¨A( μ ) = - nℓ¨В( μ ) = n2 мк2+ 102Σя2 х2яμ3
μ = 10яA( μ = 10 ) = n ,яВ( μ = 10 ) = n ⋅ ( 1200+ 20202000) > n
μ
Кроме того, этот пример иллюстрирует, что нам действительно нужна некоторая теория, чтобы помочь нам в создании семейств моделей.