Найти число гауссианов в конечной смеси с помощью теоремы Уилкса?


11

Предположим, у меня есть набор независимых идентично распределенных одномерных наблюдений и две гипотезы о том, как был сгенерирован:хxx

хH0 : взят из одного распределения Гаусса с неизвестным средним и дисперсией.x

xHA : взят из смеси двух гауссианов с неизвестным средним, дисперсией и коэффициентом смешения.x

Если я правильно понимаю, это вложенные модели, так как модель, которую представляет может быть описана в терминах если вы ограничите параметры двух гауссианов одинаковыми или ограничите коэффициент смешивания равным нулю для одного из двух гауссианов. H AH0HA

Следовательно, кажется, что вы должны быть в состоянии использовать алгоритм EM для оценки параметров а затем использовать теорему Уилкса, чтобы определить, является ли вероятность данных в значительно выше, чем вероятность в . Существует небольшой скачок веры в предположении, что алгоритм EM будет сходиться здесь с максимальной вероятностью, но я готов это сделать.H A H 0HAHAH0

Я попробовал это в симуляции Монте-Карло, предполагая, что имеет на 3 степени свободы больше, чем (среднее значение и дисперсия для второго гауссова и параметра смешивания). Когда я моделировал данные из , я получил распределение P-значений, которое было существенно неоднородным и обогащенным для небольших P-значений. (Если бы EM не сходилось к истинному максимальному правдоподобию, можно было бы ожидать совершенно противоположного.) Что не так с моим применением теоремы Уилкса, которая создает это смещение?H 0 H 0HAH0H0

Ответы:


8

Тщательно определив, как нулевая гипотеза содержится в модели двухкомпонентной смеси, можно увидеть, в чем может быть проблема. Если в модели смеси пять параметров , то потому что либо два нормальных компонента смеси равны, и в этом случае пропорция смеси имеет значения, либо пропорция смеси равна 0 или 1, и в этом случае один из компонентов смеси не имеет значения. Вывод состоит в том, что нулевая гипотеза не может быть задана, даже локально, как простое ограничение параметров, которое уменьшает размерность пространства параметров с 5 до 2.H 0 : ( μ 1 = μ 2  и  σ 1 = σ 2 )  или  ρ { 0 , 1 } . ρ ρμ1,μ2,σ1,σ2,ρ

H0:(μ1=μ2 and σ1=σ2) or ρ{0,1}.
ρρ

Нулевая гипотеза является сложным подмножеством полного пространства параметров, и при нулевых параметрах параметры даже не могут быть идентифицированы. Обычные предположения, необходимые для получения теоремы Уилка, разбиваются, в частности, невозможно построить правильное разложение Тейлора логарифмического правдоподобия.

У меня нет никакого личного опыта в решении этой конкретной проблемы, но я знаю другие случаи, когда параметры «исчезают» при нулевом значении, что, по-видимому, и здесь, и в этих случаях выводы теоремы Уилка также нарушаются , Быстрый поиск дал, среди прочего, этот документ, который выглядит актуальным, и где вы могли бы найти дополнительные ссылки на использование теста отношения правдоподобия по отношению к моделям смеси.


Спасибо. Я думал, что что-то вроде этого может быть проблемой, но я не был уверен. Меня немного смутили тонкости того, что представляет собой вложенную модель для теоремы Уилкса. Хороший момент об идентификации под нулевым.
дсимча

4

Вывод о числе компонентов смешения не удовлетворяет необходимым условиям регулярности для теоремы Уилкса, поскольку (а) параметрρнаходится на границе пространства параметров и (б) параметризация неопределяема под нулем. Нельзя сказать, что распределение обобщенного отношения правдоподобия неизвестно! Если все 5 параметров в вашей настройке неизвестны и, что более важно, не ограничены, то распределение статистики LR не сходится. Если все неидентифицируемые параметры ограничены, то статистика LR является монотонной в супремуме усеченного гауссовского процесса. Ковариацию, которую нелегко вычислить в общем случае (5 параметров), и даже если она у вас есть, распределение супремума такого процесса не легко аппроксимировать. Некоторые практические результаты, касающиеся двухкомпонентной смеси, см. Здесь., Интересно, что в статье показано, что в довольно простых настройках статистика LR на самом деле менее мощная, чем некоторые более простые статистики. Основную статью о выводе асимптотического распределения в таких задачах см. Здесь . Для всех практических целей вы можете подобрать смесь, используя EM, а затем Bootstrap распределение статистики LR. Это может занять некоторое время, так как EM, как известно, работает медленно, и вам нужно много репликации, чтобы зафиксировать влияние размера выборки. Смотрите здесь для деталей.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.