Как выбрать наилучшее соответствие без чрезмерных данных? Моделирование бимодального распределения с N нормальными функциями и т. Д.

У меня есть явно бимодальное распределение значений, которое я стараюсь соответствовать. Данные могут хорошо соответствовать либо 2 нормальным функциям (бимодальным), либо 3 нормальным функциям. Кроме того, существует вероятная физическая причина для сопоставления данных с 3.

Чем больше параметров введено, тем более идеальным будет соответствие, поскольку при достаточном количестве констант можно « подогнать слона ».

Вот распределение, соответствующее сумме 3 нормальных (гауссовых) кривых:

Распределение с

Это данные для каждой посадки. Я не уверен, какой тест я должен применить здесь, чтобы определить соответствие. Данные состоят из 91 балла.

1 нормальная функция:

RSS: 1.06231
X ^ 2: 3.1674
F.Test: 0,3092

2 нормальные функции:

RSS: 0.010939
X ^ 2: 0,053896
F.Test: 0,97101

3 нормальные функции:

RSS: 0.00536
X ^ 2: 0,02794
F.Test: 0,99249

Какой правильный статистический тест можно применить, чтобы определить, какой из этих трех подходов является лучшим? Очевидно, что 1 нормальное соответствие функции неадекватно. Так как же я могу различить 2 и 3?

Чтобы добавить, я в основном делаю это с Excel и небольшим Python; Я еще не знаком с R или другими статистическими языками.

— MurphysLab
источник

Было предложено использовать уменьшенный хи-квадрат X ^ 2 / (Nn-1), где N - количество точек данных, а n - количество подгоненных параметров. Однако небольшое количество (+/- 3) по отношению к количеству точек данных (91) не кажется интуитивно слишком сложным для добавления еще одного гауссиана.

— MurphysLab

Вы можете проверить этот ответ (в случае, если вы решите пойти по Rмаршруту). Некоторые критерии выбора модели упоминаются в этом ответе . Наконец, вы можете рассмотреть методы ансамбля , которые я кратко рассмотрел в этом ответе , который также содержит ссылку на информацию, ориентированную на Python. Вы можете найти более подробную информацию о выборе модели и усреднение в этом ответе .

— Александр Блех

Вот два способа решения проблемы выбора дистрибутива:

Для сравнения моделей используйте меру, которая штрафует модель в зависимости от количества параметров. Информационные критерии делают это. Используйте информационный критерий, чтобы выбрать, какую модель сохранить, выберите модель с самым низким информационным критерием (например, AIC). Основное правило для сравнения значимости разницы в AIC - если разность в AIC больше 2 (это не формальный тест на гипотезу, см. Проверка разницы в AIC двух не вложенных моделей ).

AIC = , где - число оцениваемых параметров, а - максимальное правдоподобие, и - функция правдоподобия, а - вероятность наблюдаемых данных зависящая от параметра распределения . $2k - 2ln(L)$ $k$ $L$ $L = \max\limits_{\theta} L(\theta |x)$ $L(\theta |x) = Pr(x|\theta)$ $\Pr(x|\theta)$ $x$ $\theta$
Если вам нужен тест на формальную гипотезу, вы можете действовать как минимум двумя способами. Возможно, проще подгонять ваши распределения, используя часть вашей выборки, и проверять, существенно ли отличаются распределения остатков, используя критерий Хи-квадрат или Колгоморова-Смирнова для остальных данных. Таким образом, вы не будете использовать те же данные для подгонки и тестирования вашей модели, которые AndrewM упомянул в комментариях.

Вы также можете выполнить тест отношения правдоподобия с поправкой на нулевое распределение. Вариант этого описан в Lo Y. et al. (2013) «Тестирование количества компонентов в нормальной смеси». Биометрика, но у меня нет доступа к статье, поэтому я не могу предоставить вам более подробную информацию о том, как именно это сделать.

В любом случае, если тест незначительный, сохраняйте распределение с меньшим числом параметров, если он значимый, выберите тест с большим числом параметров.

— Крис Новак
источник

@Momo спасибо, изменил это и добавил уравнение для AIC

— Крис Новак

Я не уверен на 100%, но стандартная AIC может не работать должным образом в моделях смесей, так как разные конфигурации смесей могут давать одну и ту же модель.

— Кагдас Озгенц

Я имел в виду, что вы можете поменять местами 2 гауссиана (установив среднее значение / дисперсию 1-го на 2-й и 2-го на 1-й, а также для смешанных весов) и все еще получить ту же модель. Насколько я знаю, AIC не работает должным образом в таких ситуациях.

— Кагдас Озгенц

@CagdasOzgenc Я понимаю вашу точку зрения, но кажется, что стандартные AIC и BIC были показаны достаточными для выбора модели в гауссовых моделях смесей, см., Например, документ projecteuclid.org/download/pdf_1/euclid.aos/1176348772

— Крис Новак

@ChrisNovak да, тест отношения правдоподобия (с поправками на нулевое распределение выборки из типичного с DOF, равным разнице в измерении пространства параметров) является хорошей идеей. Я не знаю, насколько сложны корректировки, но смеси типичны в этих случаях. Корректировки необходимы, потому что вы тестируете точку на границе пространства параметров.

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$

— Андрей М