Почему критерий отношения правдоподобия распределяется по критерию хи-квадрат?

Почему тестовая статистика теста отношения правдоподобия распределяется по хи-квадрату?

$2(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}$

distributions chi-squared likelihood-ratio

Это помогает ?

— Ник Сабби

Спасибо за ссылку. Вот один из меня: stats.stackexchange.com/faq#etiquette

— доктор Библброкс

Обратите внимание на «Принесите свое чувство юмора» там. Я не собирался быть грубым, но ответ на этот вопрос был бы довольно утомительным и состоял, в основном, из содержания этой статьи (или некоторых из лучших учебников по статистике). Если вы изложите свою точную проблему с объяснением в одном из них, я буду рад вам помочь.

— Ник Сабб

Прямая ссылка на оригинальную газету Уилкса без платного доступа.

— ayorgo

Ответы:

Как уже упоминалось @Nick, это является следствием теоремы Уилкса . Но обратите внимание, что тестовая статистика асимптотически -распределена, а не -распределена. $\chi^2$ $\chi^2$

Я очень впечатлен этой теоремой, потому что она имеет место в очень широком контексте. Рассмотрим статистическую модель с вероятностью где - вектор наблюдений независимых реплицированных наблюдений из распределения с параметром принадлежащего подмногообразию в с размерностью . Пусть - подмногообразие с размерностью $l(\theta \mid y)$ $y$ $n$ $\theta$ $B_1$ $\mathbb{R}^d$ $\dim(B_1)=s$ $B_0 \subset B_1$ . Представьте, что вы заинтересованы в тестировании . $\dim(B_0)=m$ $H_0\colon\{\theta \in B_0\}$

Отношение правдоподобия равно Определитьотклонение. ТогдаУилкса теоремаутверждаетчто при обычных предположениях регулярности,асимптотический-distributed сстепени свободы приверен.

l r (y) = \frac{sup_{θ \in B_{1}} l (θ ∣ y)}{sup_{θ \in B_{0}} l (θ ∣ y)} .

$lr(y) = \frac{\sup_{\theta \in B_1}l(\theta \mid y)}{\sup_{\theta \in B_0}l(\theta \mid y)}.$

d (y) = 2 \log (l r (y))

$d(y)=2 \log \big(lr(y)\big)$

d (y)

$d(y)$

χ^{2}

$\chi^2$

s - m

$s-m$

H_{0}

$H_0$

Это доказано в оригинальной статье Вилка, упомянутой @Nick. Я думаю, что этот документ не так легко прочитать. Уилкс опубликовал книгу позже, возможно, с самым простым изложением своей теоремы. Краткое эвристическое доказательство дано в превосходной книге Уильямса .

— Стефан Лоран
источник

Грустно, что эта теорема не упоминается на странице википедии, посвященной Сэмюэлю С. Уилксу

— Стефан Лоран

О, давай Стефан. Это Википедия, вы можете редактировать и улучшать ее!

— StasK

@StasK Я знаю это, но я никогда не пробовал. И я уже провожу слишком много времени в своей жизни со статистикой и математикой;)

— Стефан Лоран

Есть ли интуиция, почему 2 находится перед логом в определении отклонения?

— user56834

@ Programmer2134 Он получен из разложения Тейлора второго порядка.

— Фрэнк Вел

Я второй суровый комментарий Ника Саббе, и мой короткий ответ: это не так . Я имею в виду, это только в нормальной линейной модели. Для абсолютно любых других обстоятельств точное распределение не является . Во многих ситуациях можно надеяться, что условия теоремы Уилкса будут выполнены, и тогда асимптотически статистика теста логарифмического отношения правдоподобия сходится по распределению к . Ограничения и нарушения условий теоремы Уилкса слишком многочисленны, чтобы их игнорировать. $\chi^2$ $\chi^2$

В теореме предполагается, что данные iid ожидают проблем с зависимыми данными, такими как временные ряды или выборки обследования с неравной вероятностью (для которых вероятности, во всяком случае, плохо определены; «регулярные» тесты , такие как тесты независимости в таблицах непредвиденных обстоятельств, начинают вести себя как сумма ( Рао и Скотт ). Для данных iid , и сумма становится Но для независимых данных это не дольше дела. $\Rightarrow$ $\chi^2$ $\sum_k a_k v_k, v_k \sim \mbox{i.i.d.} \chi^2_1$ $a_k=1$ $\chi^2$
В теореме предполагается, что истинный параметр находится внутри пространства параметров. Если у вас есть евклидово пространство для работы, это не проблема. Однако в некоторых задачах могут возникать естественные ограничения, такие как дисперсия 0 или корреляция между -1 и 1. Если истинным параметром является граница, то асимптотическое распределение представляет собой смесь с различными степенями свободы, в том смысле, что cdf теста представляет собой сумму таких cdfs ( Andrews 2001 , плюс две или три его работы того же периода, с историей, восходящей к Черноффу 1954 ). $\ge$ $\chi^2$
Теорема предполагает, что все соответствующие производные отличны от нуля. Это может быть связано с некоторыми нелинейными проблемами и / или параметризацией, и / или ситуациями, когда параметр не идентифицирован под нулевым значением. Предположим, у вас есть модель гауссовой смеси, и ваш нуль равен одному компоненту сравнению с альтернативой двух различных компонентов $N(\mu_0,\sigma^2_0)$ $f N(\mu_1,\sigma_1^2) + (1-f) N(\mu_2,\sigma_2^2)$ с фракцией смешивания . Нуль, по-видимому, вложен в альтернативу, но это можно выразить различными способами: как (в этом случае параметры не определены), (в этом случае не определены), или (в этом случае $f$ $f=0$ $\mu_1,\sigma_1^2$ $f=1$ $\mu_2, \sigma_2^2$ $\mu_1=\mu_2, \sigma_1=\sigma_2$ $f$ не идентифицирован). Здесь вы даже не можете сказать, сколько степеней свободы должен иметь ваш тест, поскольку у вас различное количество ограничений в зависимости от того, как вы параметризуете вложение. Посмотрите на работу Цзяуа Чена, например, CJS 2001 .
может работать нормально , если распределение было указано правильно. Но если это не так, тест снова сломается. В (часто игнорируемой статистиками) подрайоне многомерного анализа, известного как ковариационное моделирование структурных уравнений, часто предполагается многомерное нормальное распределение, но даже если структура правильная, тест будет работать некорректно, если распределение будет другим. Satorra и Bentler 1995 показывают, что распределение станет , та же история, что и с независимыми данными в моем пункте 1, но они также продемонстрировали, как $\chi^2$ $\sum_k a_k v_k, v_k \sim \mbox{i.i.d.} \chi^2_1$ s зависят от структуры модели и четвертых моментов распределения. $a_k$
${\rm Prob}[d(y) \le x]=F(x;\chi^2_d)[1+O(n^{-1})]$ $n$ $F(x;\chi^2_d)$ $\chi^2_d$ $b$ ${\rm Prob}[d(y)/(1+b/n) \le x]=F(x;\chi^2_d)[1+O(n^{-2})]$ $\chi^2$ $b$

Для обзора этих и подобных эзотерических проблем в выводе вероятности см. Смит 1989 .

— Stask
источник

B_{0}

$B_0$

B_{1}

$B_1$

χ^{2}

$\chi^2$

С известной дисперсией я должен добавить.

— StasK