Просто расширение комментария Дикрана Марсупиала (перекрестная проверка). Основная идея состоит в том, чтобы каким-то образом разделить ваши данные на обучающие и проверочные наборы, пробовать различное количество компонентов и выбирать лучшие, основываясь на соответствующих значениях вероятности обучения и проверки.
Вероятность для GMM просто по определению, где - количество компонентов (кластеров) и , , - параметры модели. Изменяя значение вы можете построить график вероятности GMM для обучающих и проверочных наборов, как показано ниже.p ( x | π, μ , Σ ) = ∑КπКN( Х | цК, ΣК)КπμΣК
В этом примере должно быть очевидно, что оптимальное количество компонентов составляет около 20. Это хорошее видео об этом на Coursera, и именно там я получил вышеупомянутое изображение.
Другим обычно используемым методом является байесовский информационный критерий (BIC) :
где - вероятность, K - количество параметров и - количество точек данных. Это можно понимать как добавление штрафа за количество параметров к логарифмической вероятности.
Б яС= - 2 журнала( L ) + Kжурнал( н )
LN