Выбор модели Mclust

Пакет R mclustиспользует BIC в качестве критерия выбора модели кластера. Насколько я понимаю, модель с самым низким BIC следует выбирать среди других моделей (если вы заботитесь только о BIC). Однако, когда значения BIC все отрицательные, по Mclustумолчанию используется модель с самым высоким значением BIC. Мое общее понимание от различных испытаний - то, что mclustидентифицирует "лучшие" модели как те, которые имеют . $max\{BIC_i\}$

Я пытаюсь понять, почему авторы приняли это решение. Это показано на сайте CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html.

Кроме того, авторы mclustпакетов отмечают это в своей статье Методы классификации на основе моделей: Использование программного обеспечения mclust в Chemometrics на стр. 5.

«Лучшей» моделью считается та, которая имеет самый высокий BIC среди встроенных моделей.

Кто-нибудь может пролить свет на этот вопрос? Если нижний BIC всегда лучше, почему авторы выбирают не модель с самым низким BIC, а модель с наименьшим абсолютным BIC? Если возможно, предоставьте ссылки.

— Джон
источник

Решение найдено:

Итак, чтобы сформулировать вопрос, почему Mclustфункция по умолчанию использует модель с наибольшим значением BIC как «лучшую» модель?

Отличный вопрос! Позвольте мне дать вам длинный ответ на этот вопрос.

TL; DR : значения BIC являются приближением к интегрированной (не максимальной) вероятности, и вы хотите модель с наибольшим интегрированным правдоподобием (коэффициент Байеса), поэтому вы выбираете модель с наибольшим значением BIC.

Длинный ответ : Цель использования кластеризации на основе моделей вместо эвристических кластерных подходов, таких как k-средних и иерархической (агломерационной) кластеризации, состоит в том, чтобы предоставить более формальный и интуитивно понятный подход к сравнению и выбору подходящей кластерной модели для ваших данных.

Mclust использует методы кластеризации, основанные на вероятностных моделях, гауссовых смешанных моделях. Использование вероятностных моделей позволяет разрабатывать модельные подходы для сравнения различных кластерных моделей и размеров. См. * Методы классификации на основе моделей: использование программного обеспечения mclust в Chemometrics * ( https://www.jstatsoft.org/article/view/v018i06 ) для получения дополнительной информации.

Как уже упоминалось выше, авторы утверждают, что «лучшая» модель - это модель с наибольшим значением BIC. Вот еще один пример из расширенного программного обеспечения для кластеризации на основе моделей, оценки плотности и анализа дискриминанта: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Информационный критерий Байса или BIC (?) - это значение максимального логарифмического правдоподобия со штрафом за количество параметров в модели, и позволяет сравнивать модели с различными параметризациями и / или различными числами кластеров. В целом, чем больше значение BIC, тем больше доказательств для модели и количества кластеров (см., Например, Fraley and Raftery 2002a).

Выбор модели : теперь, когда к кластерам прикреплена вероятностная модель, вы можете использовать более сложные инструменты для сравнения нескольких кластерных моделей, используя байесовский выбор модели с помощью байесовских факторов.

В их статье Сколько кластеров? Какой метод кластеризации? Ответы с помощью модельного кластерного анализа ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

Байесовский фактор является последним коэффициентом для одной модели против другой, предполагая, что ни один не является предпочтительным априори. Banfield и Raftery [2] использовали эвристическое приближение для удвоения логарифмического байесовского коэффициента, называемого «AWE», для определения количества кластеров в иерархической кластеризации на основе вероятности классификации. Когда для определения максимальной вероятности смеси используется ЭМ, применяется более надежное приближение к двойному логарифмическому коэффициенту Байеса, называемое БИК (Шварц [32]):

$2 \log(p(x | M)) + constant \approx 2 l_M (x, \hat{\theta}) - m_m log(n) \equiv BIC$

где - (интегрированная) вероятность данных для модели M, - логарифмическая правдоподобие смеси для модели, а m_M - число независимых параметров. быть оцененным в модели. Количество кластеров не считается независимым параметром для целей расчета BIC. Если каждая модель в равной степени likeli , то пропорциональны задней вероятность того, что данные , соответствующий образец . Соответственно, чем больше значение BIC, тем больше доказательств для модели. $p(x |M)$ $l_M(x, \hat{\theta})$ $a \ priori$ $p(x|M)$ $M$

Итак, в итоге, BIC не следует минимизировать. Человек, использующий этот основанный на модели подход кластеризации, должен искать модель, которая максимизирует BIC, поскольку она приближает байесовский фактор с максимальной интегрированной вероятностью.

Это последнее утверждение также имеет ссылку:

Banfield, JD и Raftery, AE (1993) Основанная на модели гауссова и негауссова кластеризация. Биометрия, 49, 803– 821.

РЕДАКТИРОВАТЬ : на основе обмена электронной почтой,

Как примечание, всегда проверяйте, как определен BIC. Иногда, например, в большинстве контекстов регрессии (где традиционно для оценки параметров минимизируется статистика, например, остаточная сумма квадратов, отклонение и т. Д.), BIC вычисляется как -2 * loglik + npar * log (n), т.е. наоборот что используется в mclust. Понятно, что в этом случае BIC должен быть сведен к минимуму.

Общее определение BIC: ; mclust не включает отрицательный компонент. $BIC = -2 \times ln(L(\theta | x)) + k \times ln(n)$

— Джон
источник

Не уверен, с какой версией Mclust была связана переписка по этому ответу. Версия 4 Mclust использует отрицательный компонент BIC и, следовательно, должна быть максимально увеличена. Надеюсь, что это может быть полезно для людей, пытающихся выяснить, следует ли делать максимизацию или минимизацию.

— Расика

Спасибо за указание на это, я обновлю этот вопрос, чтобы он имел смысл. Я мог бы также заглянуть в документацию, чтобы узнать, почему они решили внести это изменение через столько лет

— Джон