Предположим, у меня есть набор независимых идентично распределенных одномерных наблюдений и две гипотезы о том, как был сгенерирован:х
х : взят из одного распределения Гаусса с неизвестным средним и дисперсией.
x : взят из смеси двух гауссианов с неизвестным средним, дисперсией и коэффициентом смешения.
Если я правильно понимаю, это вложенные модели, так как модель, которую представляет может быть описана в терминах если вы ограничите параметры двух гауссианов одинаковыми или ограничите коэффициент смешивания равным нулю для одного из двух гауссианов. H A
Следовательно, кажется, что вы должны быть в состоянии использовать алгоритм EM для оценки параметров а затем использовать теорему Уилкса, чтобы определить, является ли вероятность данных в значительно выше, чем вероятность в . Существует небольшой скачок веры в предположении, что алгоритм EM будет сходиться здесь с максимальной вероятностью, но я готов это сделать.H A H 0
Я попробовал это в симуляции Монте-Карло, предполагая, что имеет на 3 степени свободы больше, чем (среднее значение и дисперсия для второго гауссова и параметра смешивания). Когда я моделировал данные из , я получил распределение P-значений, которое было существенно неоднородным и обогащенным для небольших P-значений. (Если бы EM не сходилось к истинному максимальному правдоподобию, можно было бы ожидать совершенно противоположного.) Что не так с моим применением теоремы Уилкса, которая создает это смещение?H 0 H 0