В течение долгого времени я задавался вопросом о, казалось бы, распространенном убеждении, что существует некоторая принципиальная разница в фиксированных и случайных эффектах для (как правило, нелинейных) моделей смешанных эффектов. Это убеждение, например, высказано Бейтсом в следующем ответе
https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html
Бейтс ясно заявляет, что он считает, что существует фундаментальное различие между фиксированными и случайными эффектами, поэтому их нельзя объединять. Я думаю, что он неправ, и я надеюсь убедить нескольких читателей в альтернативной точке зрения. Я использую частый подход, поэтому я хочу определить понятие вероятности профиля для функции как фиксированных, так и случайных эффектов. Для мотивации обсуждения предположим, что у нас есть двухпараметрическая модель с параметрами x и u (пока что ничего о случайных эффектах нет). Пусть
- функция правдоподобия, где мы подавляем любую ссылку на данные. Пусть - любая (хорошая) функция от x и u. Вероятность профиля
для функции определяется выражениемg ( x , u ) P g ( t ) gL(x,u)g(x,u)Pg(t)g
Pg(t)=maxx,u{L(x,u) | g(x,u)=t}\eqno(1)
Я считаю, что никто не станет спорить с этим. Теперь предположим, что у нас есть предварительное распределение вероятностей для u. Тогда я бы сказал, что вероятность профиля для все еще имеет смысл, но мы должны изменить (1), включив предыдущее.p(u)g
Pg(t)=maxx,u{L(x,u)p(u) | g(x,u)=t}\eqno(2)
Обратите внимание, что, поскольку является параметром с до этого он точно такой же, как случайный эффект. Так почему же многие думают, что параметры случайных эффектов как-то отличаются. Я думаю, что разница заключается в обычной практике оценки параметров для них. То, что делает случайные эффекты «разными», так это то, что их много во многих моделях. В результате, чтобы получить полезные оценки для фиксированных эффектов (или других параметров), необходимо рассматривать случайные эффекты другим способом. Что мы делаем, так это интегрируем их из модели. В приведенной выше модели мы бы сформировали вероятность где
Теперь
uF(x)F(x)=∫L(x,u)p(u)du
uпропали. Поэтому, если все, что у нас есть, это то, кажется, нет смысла говорить о вероятности профиля для некоторой функции .
F(x)g(x,u)
Поэтому для получения информации о функции не нужно интегрировать по параметру . Но что происходит в случае, когда есть много параметров случайных эффектов. Затем я утверждаю, что мы должны интегрироваться по «большинству», но не по всем из них в некотором смысле, который я уточню. Чтобы мотивировать конструкцию, пусть будет случайных эффектов
. Рассмотрим особый случай, когда функция зависит только от и фактически является самой простой из представленных функций, . Интегрируем случайные эффекты чтобы получить
g(x,u)unu=(u1,u2,...,un−1,un)g(x,u)ung(x,u)=unu1,u2,...,un−1
F(x,un)=∫L(x,u1,...,un)p(u1,...,un))du1du2...dun−1\eqno(4)
как и прежде мы можем сформировать профиль вероятности
Как обобщить чтобы иметь смысл для произвольной функции . Хорошо заметьте, что определение в
такое же, как
Чтобы заметить, что для простого случая ,
совпадает с
Pg(t)=maxx,un{F(x,un)|un=t}\eqno(3)
(3)g(x,u)F(x,un)(4)F(x,s)=limϵ→01ϵ∫{(x,un)|s−ϵ/2<g(x,un)<s+ϵ/2}L(x,u1,...,un)p(u1,...,un))du1du2...dun\eqno(5)
g(x,u)=un(5)F(x,s)=limϵ→01ϵ∫{(x,un)|s−ϵ/2<un<s+ϵ/2}F(x,un)dun\eqno(6)
Для общей функции мы формируем функцию
определенную формулой и вычисляем вероятность профиля
g(x,u)F(x,s)(5)
Pg(s)=maxx,u{F(x,s)|g(x,u)=s}\eqno(3)
Этот профиль вероятности является четко определенной концепцией и стоит сам по себе. Однако, чтобы быть полезным на практике, нужно уметь вычислять его значение, по крайней мере, приблизительно. Я полагаю, что для многих моделей функция может быть достаточно хорошо аппроксимирована с использованием варианта приближения Лапласа. Определите как
Пусть H - гессиан логарифма функции относительно параметров и .F(x,s)x^(s),u^(s)
x^(s),u^(s)=maxx,u{L(x,u)p(u) | g(x,u)=s}
−L(x,u)p(u)xu
Множества уровней являются мерными подмногообразиями мерного пространства, где имеется фиксированных эффектов и случайных эффектов. Нам нужно интегрировать форму
по этому многообразию, где все линеаризовано в
Это включает в себя элементарную дифференциальную геометрию. Предположим, что
Повторным параметрированием можно предположить, что и . Тогда рассмотрите карту
gm+n−1n+mmnndu1∧du2∧…∧dunx^(s),u^(s)gxn(x^(s),u^(s))≠0x^(s)=0u^(s)=0
(x1,x2,…,xm−1,u1,u2,…,un)→(x1,x2,…,xm−1,−∑m−1i=1gxixi−∑ni=1guiuigxm,u1,u2,…,un)
где используется для обозначим частичную производную от относительно оцененную
в максимальной точке. Это линейное отображение мерного пространства на касательное пространство множества уровней . Мы можем использовать его для вычисления желаемого интеграла. Сначала откат 1 формы - это просто они сами.
gxigxim+n−1gdui
Откат гессиана - это квадратичная форма
Ti,j=Hi+m,j+m+guigujgxm2Hm,m\rm for 1<=i,j<=n
Таким образом, интеграл может быть вычислен (или аппроксимирован) через приближение Лапласа, которое является обычной формулой, включающей логарифм определителя , который вычисляется посредством разложения Холецкого. Значение аппроксимации интеграла по Лапласу равно
гдеэто определитель. нам все еще нужно иметь дело с шириной набора уровней как
Для первого порядка это имеет значение
где - вектор частных производных
T
L(x^(s),u^(s))|−T|12
|⋅|gϵ→0ϵ/∥∇g(x^(s),u^(s))∥∇g(x^(s),u^(s)))g (gx1,gx2,…,gxm,gu1,gu2,…,gun)
так что значение вероятности на наборе уровней задано с помощью
Это правильное приближение, используемое для расчета вероятности профиля.
gL(x^(s),u^(s))|−T|12∥∇g(x^(s),u^(s))∥