В несколько более общем контексте с - мерного вектора -observations (ответов или зависимых переменных), матрица -observations (ковариат или зависимых переменных) и параметры такие, что тогда вероятность минус-логарифма равна
В вопросе ОП диагонали с
YnyXn×pxθ=(β1,β2,σ)Y∼N(Xβ1,Σ(β2,σ))
l(β1,β2,σ)=12(Y−Xβ1)TΣ(β2,σ)−1(Y−Xβ1)+12log|Σ(β2,σ)|
Σ(β2,σ)Σ(β2,σ)ii=σ2g(zTiβ2)2
поэтому определителем становится и полученная вероятность минус-логарифмирования становится
Существует несколько способов приблизиться к минимизации этой функции (при условии, что три параметра не зависят от изменения).
σ2n∏ni=1g(zTiβ2)212σ2∑i=1n(yi−xTiβ1)2g(zTiβ2)2+nlogσ+∑i=1nlogg(zTiβ2)
- Вы можете попытаться минимизировать функцию с помощью стандартного алгоритма оптимизации, помня об ограничении .σ>0
- Вы можете вычислить профиль минус логарифмическая вероятность , минимизировав значение over для фиксированного , а затем подключить полученную функцию к стандартному алгоритму оптимизации без ограничений.(β1,β2)σ(β1,β2)
- Вы можете переключаться между оптимизацией по каждому из трех параметров в отдельности. Оптимизация по может быть выполнена аналитически, оптимизация по - это проблема регрессии взвешенных наименьших квадратов, а оптимизация по эквивалентна подгонке линейной гамма-обобщенной модели с обратной связью .σβ1β2g2
Последнее предложение мне нравится, потому что оно основано на решениях, которые я уже хорошо знаю. Кроме того, первая итерация - это то, что я хотел бы сделать в любом случае. То есть сначала вычислите начальную оценку помощью обычных наименьших квадратов, игнорируя потенциальную гетероскедастичность, а затем подгоните гамма-блеск к квадратным невязкам, чтобы получить первоначальную оценку просто чтобы проверить, кажется ли более сложной модель стоящей. Итерации, включающие гетероскедастичность в решение наименьших квадратов в качестве весов, могут затем улучшить оценку.β1β2 −
Что касается второй части вопроса, я, вероятно, рассмотрю возможность вычисления доверительного интервала для линейной комбинации либо с использованием стандартной асимптотики MLE (проверка с помощью симуляций, что асимптотика работает), либо с помощью начальной загрузки.wT1β1+wT2β2
Редактировать: Под стандартной асимптотикой MLE я имею в виду использование многомерного нормального приближения к распределению MLE с ковариационной матрицей обратной информации Фишера. Информация Фишера по определению является ковариационной матрицей градиента . Это зависит в целом от параметров. Если вы можете найти аналитическое выражение для этой величины, вы можете попробовать подключить MLE. В качестве альтернативы вы можете оценить информацию Фишера по наблюдаемой информации Фишера, которая является гессианом в MLE. Ваш интересующий параметр представляет собой линейную комбинацию параметров в двухllβ-векторы, следовательно, из аппроксимирующей многомерной нормали MLE вы можете найти нормальную аппроксимацию распределения оценок, как описано здесь . Это дает вам приблизительную стандартную ошибку, и вы можете вычислить доверительные интервалы. Это хорошо описано во многих (математических) статистических книгах, но разумно доступная презентация, которую я могу порекомендовать, - это « По всей вероятности» Юди Павитан. Во всяком случае, формальный вывод асимптотической теории довольно сложен и опирается на ряд условий регулярности, и он дает только действительную асимптотикуРаспределения. Следовательно, если вы сомневаетесь, я всегда буду делать некоторые симуляции с новой моделью, чтобы проверить, могу ли я доверять результатам для реалистичных параметров и размеров выборки. Простая непараметрическая начальная загрузка, когда вы выбираете тройки из набора наблюдаемых данных с заменой, может быть полезной альтернативой, если процедура подгонки не требует слишком много времени.(yi,xi,zi)