Во-первых, предостережение. В кластеризации часто нет одного «правильного ответа» - одна кластеризация может быть лучше другой по одной метрике, а обратная может быть верной при использовании другой метрики. А в некоторых ситуациях две разные кластеризации могут быть одинаково вероятными по одной и той же метрике.
Сказав это, вы можете взглянуть на процессы Дирихле . Также см. Этот учебник .
Если вы начнете с модели гауссовой смеси, у вас возникнет та же проблема, что и для k-средних - вам нужно выбрать количество кластеров. Вы можете использовать модельное свидетельство, но в этом случае оно не будет надежным. Таким образом, хитрость заключается в том, чтобы использовать процесс Дирихле перед компонентами смеси, который затем позволяет иметь потенциально бесконечное количество компонентов смеси, но модель (обычно) автоматически найдет «правильное» количество компонентов (при допущениях модель).
Обратите внимание, что вам все еще нужно указать параметр концентрации процесса Дирихле. При малых значениях образцы из ДП могут состоять из небольшого числа атомных мер с большими весами. При больших значениях большинство образцов, вероятно, будут различаться (концентрироваться). Вы можете использовать гиперприоритет для параметра концентрации, а затем вывести его значение из данных, и этот гиперприоритет может быть достаточно расплывчатым, чтобы разрешить множество различных возможных значений. Однако, учитывая достаточное количество данных, параметр концентрации перестанет быть таким важным, и этот гиперприоритет может быть отброшен.ααα