Является ли оценка MLE асимптотически нормальной и эффективной, даже если модель неверна?

Предпосылка: это может быть глупый вопрос. Я знаю только утверждения об асимптотических свойствах MLE, но я никогда не изучал доказательства. Если бы я это сделал, возможно, я бы не стал задавать эти вопросы, или, может быть, я бы понял, что эти вопросы не имеют смысла ... поэтому, пожалуйста, будьте осторожны со мной

Я часто видел утверждения, в которых говорится, что оценка MLE параметров модели асимптотически нормальна и эффективна. Заявление обычно пишется как

$\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})$ качестве $N\to\infty$

где $N$ есть число образцов, $\mathbf{I}$ информация Фишер и $\theta_0$ является параметром (вектор) истинное значение . Теперь, поскольку есть ссылка на истинную модель, означает ли это, что результат не будет иметь место, если модель не соответствует действительности?

Пример: предположим, что я моделирую выходную мощность ветровой турбины $P$ как функцию скорости ветра $V$ плюс аддитивный гауссов шум

$P=\beta_0+\beta_1V+\beta_2V^2+\epsilon$

Я знаю, что модель неверна, по крайней мере, по двум причинам: 1) $P$ действительно пропорционален третьей степени $V$ и 2) ошибка не аддитивна, потому что я пренебрегал другими предикторами, которые не коррелируют со скоростью ветра (я также знаю, что $\beta_0$ должен быть 0 , поскольку при 0 скорости ветра никакой силы не генерируется, но это не имеет значения здесь). Теперь предположим, что у меня есть бесконечная база данных о мощности и скорости ветра от моей ветряной турбины. Я могу нарисовать столько образцов, сколько захочу, любого размера. Предположим, я нарисовал 1000 образцов, каждый размером 100, и вычислил , MLE-оценку $\hat{\boldsymbol{\beta}}_{100}$ $\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$ (что по моей модели будет просто оценка OLS). Таким образом, у меня есть 1000 образцов из дистрибутива $\hat{\boldsymbol{\beta}}_{100}$ . Я могу повторить упражнение с $N=500,1000,1500,\dots$ . Как $N\to\infty$ , должно ли распределение $\hat{\boldsymbol{\beta}}_{N}$ иметь тенденцию быть асимптотически нормальным с указанным средним и дисперсией? Или тот факт, что модель неверна, лишает законной силы этот результат?

Причина, по которой я спрашиваю, состоит в том, что редко (если когда-либо) модель «верна» в приложениях. Если асимптотические свойства MLE теряются, когда модель неверна, то может иметь смысл использовать другие принципы оценки, которые, хотя и менее эффективны в условиях, когда модель верна, могут работать лучше, чем MLE в других случаях.

РЕДАКТИРОВАТЬ : было отмечено в комментариях, что понятие истинной модели может быть проблематичным. Я имел в виду следующее определение: учитывая семейство моделей обозначаемых параметром vector , для каждой модели в семействе вы всегда можете написать $f_{\boldsymbol{\theta}}(x)$ $\boldsymbol{\theta}$

$Y=f_{\boldsymbol{\theta}}(X)+\epsilon$

просто определив как . Тем не менее, в общем случае ошибка не будет ортогональной к , будет иметь среднее значение 0 и не обязательно будет иметь распределение, предполагаемое при выводе модели. Если существует значение такое, что имеет эти два свойства, а также предполагаемое распределение, я бы сказал, что модель верна. Я думаю, что это напрямую связано с утверждением, что , потому что член ошибки в разложении $\epsilon$ $Y-f_{\boldsymbol{\theta}}(X)$ $X$ $\boldsymbol{\theta_0}$ $\epsilon$ $f_{\boldsymbol{\theta_0}}(X)=E[Y|X]$

$Y=E[Y|X]+\epsilon$

имеет два свойства, упомянутых выше.

maximum-likelihood model asymptotics

— DeltaIV
источник

Оценка MLE часто асимптотически нормальна, даже если модель не соответствует действительности, например, она может быть согласованной для значений «наименьшего ложного» параметра. Но в таких случаях будет трудно продемонстрировать эффективность или другие оптимальные свойства.

— kjetil b halvorsen

Перед эффективностью мы должны смотреть на последовательность. В сценарии, когда истина не находится в вашем пространстве поиска, нам нужно другое определение согласованности, такое что: d (P *, P), где d - дивергенция, P * - самая близкая модель с точки зрения d, а P - правда. Например, когда d является дивергенцией KL (то, что MLE сводит к минимуму), известно, что байесовские процедуры несовместимы (не могут достичь ближайшей модели), если модель не является выпуклой. Поэтому я предполагаю, что MLE также будет несовместимым. Поэтому эффективность становится плохо определенной. homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf

— Кагдас Озгенц

@Cagdas Ozgenc: во многих случаях (например, логистическая регрессия) MLE все еще остается неизменным для параметров «наименьшего ложного». У вас есть ссылка на ваше заявление о несоответствии в невыпуклом случае? Было бы очень интересно? (Функция правдоподобия логистической регрессии выпуклая)

— kjetil b halvorsen

@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf Это над моей головой, но это то, что я понимаю. Если мое понимание неверно, поправьте меня. Я просто любитель в конце концов.

— Кагдас Озгенц

Я думаю, что у нас возникают проблемы, когда мы используем такие термины, как «модель верна» или «наименее ложно». При работе с моделями на практике все они приблизительны. Если мы сделаем определенные предположения, мы можем использовать математику, чтобы показать статистические свойства. Здесь всегда существует конфликт между математикой вероятности и практическим анализом данных.

— Майкл Р. Черник

Я не верю, что есть один ответ на этот вопрос.

Когда мы учитываем возможную ошибочную спецификацию распределения при применении оценки максимального правдоподобия, мы получаем то, что называется оценкой «квазимаксимального правдоподобия» (QMLE). В некоторых случаях QMLE является как последовательным, так и асимптотически нормальным.

Что он теряет с уверенностью, так это асимптотическая эффективность. Это связано с тем, что асимптотическая дисперсия (это величина, имеющая асимптотическое распределение, а не только ) во всех случаях $\sqrt n (\hat \theta - \theta)$ $\hat \theta$

\begin{matrix} (1) & Avar [\sqrt{n} (\hat{θ} - θ)] = plim ([\hat{H}]^{- 1} [\hat{S} {\hat{S}}^{T}] [\hat{H}]^{- 1}) \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = \text{plim}\Big( [\hat H]^{-1}[\hat S \hat S^T][\hat H]^{-1}\Big) \tag{1}$

где - гессенская матрица логарифмического правдоподобия, а - градиент, а шапка указывает выборочные оценки. $H$ $S$

Теперь, если у нас есть правильная спецификация, мы получаем, во-первых, что

\begin{matrix} (2) & Avar [\sqrt{n} (\hat{θ} - θ)] = (E [H_{0}])^{- 1} E [S_{0} S_{0}^{T}] (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = (\mathbb E[H_0])^{-1}\mathbb E[S_0S_0^T](\mathbb E[H_0])^{-1} \tag{2}$

где индекс « » обозначает оценку при истинных параметрах (и обратите внимание, что средний термин является определением информации Фишера), и, во-вторых, что « равенство информационной матрицы » выполняется и утверждает, что , что означает, что асимптотическая дисперсия, наконец, будет $0$ $-\mathbb E[H_0] = \mathbb E[S_0S_0^T]$

\begin{matrix} (3) & Avar [\sqrt{n} (\hat{θ} - θ)] = - (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = -(\mathbb E[H_0])^{-1} \tag{3}$

которая является обратной к информации Фишера.

Но если мы имеем неправильную спецификацию, выражение не приводит к выражению (потому что первое и второе производные в были получены на основе неправильной вероятности). Это, в свою очередь, означает, что неравенство в информационной матрице не выполняется, что мы не попадаем в выражение , и что (Q) MLE не достигает полной асимптотической эффективности. $(1)$ $(2)$ $(1)$ $(3)$

— Алекос Пападопулос
источник

Avar

$\text{Avar}$ - это асимптотическая дисперсия случайной величины, а означает сходимость по вероятности, верно? Ваш ответ кажется очень интересным, но я не понимаю, что такое в вашем контексте. Я имел в виду случай, когда правильное значение просто не существует: см. Мой пример с ветряной турбиной, где независимо от значения , нет значение , что делает модель правильно, потому что нет термина, а потому , что другие предсказатели коррелировали с отсутствуют. Что бы в этом контексте значило ?

plim

$\text{plim}$

θ

$\theta$

θ

$\theta$

β = (β_{0}, β_{1}, β_{2})

$\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$

β_{3}

$\beta_3$

V

$V$

θ

$\theta$

— DeltaIV

извините, первое издание моего комментария было непонятно: теперь моя точка зрения должна быть ясной. Другими словами, если нет «истинного» , что мы должны интерпретировать как в выражении ?

θ

$\theta$

θ

$\theta$

\sqrt{n} (\hat{θ} - θ)

$\sqrt n (\hat \theta - \theta)$

— DeltaIV

@DeltaIV Ноль. Будет ли QMLE «ловить» это? Зависит от того, будет ли он последовательным или нет - и опять же, нет однозначного ответа на этот вопрос

— Алекос Пападопулос

Я понял. Таким образом, QMLE (если он согласован) должен сходиться к : я бы подумал, что оно сходится к некоторому «наименьшему ложному» значению параметра, как это было предложено @kjetilbhalvorsen. Можете ли вы предложить какую-либо ссылку на QMLE и уравнения, которые вы написали? Спасибо

θ = 0

$\theta=0$

— DeltaIV

@DeltaIV Я бы предложил выставку в Hayashi ch. 7 об оценках экстремума, что касается согласованности, нормальности MLE и т. Д. Что касается QMLE, то тема довольно обширная. Например, в «QMLE» у нас действительно могут быть ситуации, когда мы с самого начала признаем, что оцениваемые нами параметры могут не иметь четкой связи с какими-либо «истинными параметрами» (но упражнение все еще действует в качестве приблизительного). и, таким образом, получить «наименее ложный» вектор, как предлагается.

— Алекос Пападопулос