Определитель информационной матрицы Фишера для сверхпараметрической модели


10

Рассмотрим случайную переменную Бернулли с параметром (вероятность успеха). Функция правдоподобия и информация Фишера ( матрица ):θ 1 × 1X{0,1}θ1×1

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

Теперь рассмотрим «слишком параметризованную» версию с двумя параметрами: вероятность успеха θ1 и вероятность отказа θ0 . (Обратите внимание, что θ1+θ0=1 , и это ограничение подразумевает, что один из параметров является избыточным.) В этом случае функция правдоподобия и информационная матрица Фишера (FIM):

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

Обратите внимание, что детерминанты этих двух FIM идентичны. Кроме того, это свойство распространяется на более общий случай категориальных моделей (т. Е. Более двух состояний). Он также распространяется на лог-линейные модели с различными подмножествами параметров, ограниченными до нуля; в этом случае дополнительный «избыточный» параметр соответствует функции логарифмического разбиения, и эквивалентность двух определителей FIM может быть показана на основе дополнения Шура более крупного FIM. (На самом деле, для лог-линейных моделей меньшая FIM является просто дополнением Шура к большей FIM.)

Может ли кто-нибудь объяснить, распространяется ли это свойство на больший набор параметрических моделей (например, на все экспоненциальные семейства), позволяя опцию получения определителей FIM на основе такого «расширенного» набора параметров? Т.е. предположим любую данную статистическую модель с параметрами, которые лежат на мерном многообразии, вложенном в -мерное пространство. Теперь, если мы расширим набор параметров, чтобы включить еще одно измерение (которое полностью ограничено на основе других) и вычислим FIM на основе этих параметров, мы всегда получим тот же определитель, что и исходный (независимых) параметров? Кроме того, как эти два FIM связаны?nn(n+1)(n+1)n

Причина, по которой я задаю этот вопрос, состоит в том, что FIM с дополнительным параметром часто выглядит проще. Моя первая мысль - это не должно работать вообще. FIM включает в себя вычисление частных производных логарифмической вероятности по каждому параметру. Эти частные производные предполагают, что, хотя рассматриваемый параметр изменяется, все остальные параметры остаются постоянными, что неверно, если мы задействуем дополнительный (ограниченный) параметр. В этом случае мне кажется, что частные производные больше не действительны, потому что мы не можем предполагать, что другие параметры постоянны; Однако мне еще предстоит найти доказательства того, что это на самом деле проблема. (Если частные производные являются проблематичными в случаях с зависимыми параметрами, являются ли общие производные(n+1)×(n+1)нужен вместо этого? Я еще не видел пример вычисления FIM с полным производным, но, возможно, это решение ...)

Единственный пример, который я мог найти в Интернете, который вычисляет FIM на основе такого «расширенного» набора параметров, заключается в следующем: эти примечания содержат пример для категориального распределения, вычисляя требуемые частные производные как обычно (т.е. как если бы каждый параметр был независимым даже если среди параметров есть ограничение).


1
Хороший вопрос! Я думаю, что двухпараметрическая спецификация случайной величины Бернулли является довольно неудачным примером, потому что без ограничения больше не обязан быть плотностью. Например, можете ли вы воспроизвести свое наблюдение для изогнутой экспоненциальной семьи? p(X|θ1,θ0)=θ1Xθ01X
Хашаа

@ Khashaa Я предполагаю, что ограничение применяется в случае с двумя параметрами (тот, который вы упомянули), так что функция правдоподобия все равно будет действительной плотностью. Кроме того, да, я могу воспроизвести это наблюдение, например, для лог-линейных моделей с различными подмножествами параметров, ограниченными до нуля; в этом случае «избыточный» параметр соответствует функции раздела журнала. θ1+θ2=1
Тайлер Стритер

1
Как насчет ? N(μ,μ2)
Хашаа

Ответы:


4

Для нормального информационная матрица имеет вид Для искривленной нормальнойИтак, ваше наблюдение, что детерминанты равны, не универсально, но это еще не все.XN(μ,σ2)

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

Как правило, если является информационной матрицей при репараметризации то нетрудно увидеть, что Информационная матрица для исходных параметров имеет вид где - якобиан преобразования .Ig

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
Gg=g(θ)

Для примера Бернулли и . Итак, якобиан равен и, таким образом, (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

Для изогнутого нормального примера,

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

Я думаю, что теперь вы можете легко связать детерминанты.

Продолжение после комментария

Если я вас правильно понял, FIM действителен до тех пор, пока вы существенно расширяете параметры: вероятность при новой параметризации должна быть действительной плотностью. Поэтому я назвал пример Бернулли неудачным.

Я думаю, что ссылка, которую вы предоставили, имеет серьезный недостаток при выводе FIM для категориальных переменных, так как у нас есть и . Обнаружение отрицательного гессиана дает , но не для ковариации векторов оценок. Если вы пренебрегаете ограничениями, равенство информационной матрицы не выполняется. E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}


Спасибо за упоминание подхода преобразования Якоби и за простые, понятные примеры. Можете ли вы (или кто-либо еще) прокомментировать следующую проблему, которая все еще касается меня: при расширении набора параметров на одно измерение, как мы делаем здесь, мы вводим ограничение среди параметров, так что любые частные производные (как того требует FIM) должен быть недействительным, потому что теперь, когда мы изменяем один параметр, другие больше не являются постоянными. Итак, является ли FIM действительным даже для расширенного набора параметров, учитывая, что частные производные недопустимы из-за дополнительного ограничения?
Тайлер Стритер

@TylerStreeter Я обновил свой ответ для решения вашей проблемы.
Хашаа

3

Похоже, что результат имеет место для определенного вида связи между параметрами.

Не претендуя на полную общность приведенных ниже результатов, я придерживаюсь одного-двух параметров. Обозначим неявное уравнение, которое выражает отношения, которые должны соблюдаться между двумя параметрами. Тогда «правильное расширенное», «двухпараметрическое» логарифмическое правдоподобие (не то, что подсчитывает ОП - мы придем туда)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
эквивалентно истинному правдоподобию , поскольку , ( является множитель), и мы можем рассматривать два параметра как независимые, в то время как мы дифференцируем.Lg(θ0,θ1)=0λ

Используя индексы для обозначения производных по параметрам (одна первая производная нижнего индекса, вторая вторая производная нижних индексов), определитель гессиана правильного расширенного логарифмического правдоподобия будет

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

Что делает OP вместо этого?

Он считает неправильное правдоподобие «игнорированием» отношения между двумя параметрами и без учета ограничения . Затем он приступает к дифференциации и получаетL(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

Очевидно, что в общем случае не равно .(2)(1)

Но если , тоg00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

Таким образом, если связь между фактическим параметром и избыточным параметром такова, что все вторые частные производные неявной функции, которая их связывает, все равны нулю , то подход, который в корне неверен, оказывается «правильным».

Для случая Бернулли мы действительно имеем

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

ADDENDUM
Чтобы ответить на вопрос @Khashaa и показать здесь механику, мы рассмотрим вероятность, указанную с избыточным параметром, но также с ограничением, которое связывает избыточный параметр с истинным. Что мы делаем с логарифмическими правдоподобиями, так это максимизируем их - так что здесь у нас есть случай ограниченного максимизации. Предположим, что образец размером :n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

Эта проблема имеет лангранжеву (то, что неофициально я назвал «правильной расширенной вероятностью» выше),

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

Условия первого порядка для максимума

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

для которого мы получаем соотношение

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

используя ограничение, при котором вышеприведенные действительны, мы получаемθ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

как мы должны.

Более того, поскольку ограничение является линейным по всем параметрам, его вторые производные будут равны нулю. Это отражается в том факте, что в первых производных лагрангана множитель " "стоит один", и он будет исключен, когда мы возьмем вторые производные лагранжиана. Что, в свою очередь, приведет нас к гессиану, чей определитель будет равен (одномерной) второй производной от исходного однопараметрического логарифмического правдоподобия, после наложения также ограничения (что и делает OP). Тогда взятие отрицательного значения ожидаемого значения в обоих случаях не меняет эту математическую эквивалентность, и мы приходим к соотношению «одномерная информация Фишера = определитель двумерной информации Фишера». Сейчас жеλучитывая, что ограничение является линейным по всем параметрам, OP получает тот же результат (на уровне второй производной), не вводя ограничение с множителем в функцию, которая должна быть максимизирована, поскольку на втором уровне производной присутствие / влияние ограничение исчезает в таком случае.

Все это связано с исчислением, а не со статистическими понятиями.


Я не могу следовать твоей логике. Не могли бы вы объяснить, почему Lage-подобный считается «правильным расширенным», «двухпараметрическим» логарифмическим правдоподобием? Кроме того, гессиан совершенно загадочный для меня. Вы рассчитываете наблюдаемую информационную матрицу? Le
Хашаа

@ Khashaa В терминологии установлено, что «гессиан» является матрицей вторых производных многомерной функции.
Алекос Пападопулос

Было бы полезно, если бы здесь внизу опубликовали ответ - потому что конкретный пример ОП существует - и требует объяснения.
Алекос Пападопулос

Извините, если мой вопрос был неясным. Мой вопрос был о том, как вы связали гессиан с информационной матрицей, так как я не видел никаких ожиданий, воздействующих на нее, и результат казался наблюдаемой информационной матрицей. Кроме того, можете ли вы объяснить, почему является правильным логарифмическим правдоподобием? Я предполагаю, что вы используете какой-то принципиальный метод оценки ограниченной вероятности, но я не понимаю, как это работает. Le
Хашаа

@Khashaa Я добавил экспозицию на примере ОП.
Алекос Пападопулос
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.