Кластеризация вероятностных распределений - методы и метрики?


13

У меня есть несколько точек данных, каждая из которых содержит 5 векторов агломерированных дискретных результатов, результаты каждого вектора, сгенерированные различным распределением (конкретный вид, в котором я не уверен, мое лучшее предположение - Вейбулл, с параметром формы, изменяющимся где-то в пределах экспоненциальной степени) закон (от 1 до 0, примерно).)

Я собираюсь использовать алгоритм кластеризации, такой как K-Means, чтобы поместить каждую точку данных в группы на основе атрибутов ее пятикомпонентного распределения. Мне было интересно, есть ли какие-либо установленные метрики расстояния, которые были бы элегантны для этих целей. До сих пор у меня было три идеи, но я не опытный статистик (скорее начинающий компьютерный специалист по интеллектуальному анализу данных), поэтому я мало представляю, как далеко я ухожу.

  1. Поскольку я не знаю точно, с какими типами распределений я имею дело, мой грубый метод решения проблемы заключался в том, чтобы разбить каждое из распределений (у меня есть 5 на точку) на каждое из соответствующих значений дискретных данных (я дополняю каждый соответствует одной и той же длине с нулями в конце) и использует каждое из этих значений в качестве отдельного атрибута для самой точки данных. Я пытался использовать как манхэттенское расстояние, так и евклидово расстояние как метрики, основанные на этих атрибутах, как для PDF, так и для CDF.

  2. Опять же, поскольку я не знаю, какие у меня распределения, я решил, что, если я собираюсь измерить расстояние между общими распределениями, я мог бы использовать какой-то непараметрический тест попарно между распределениями, такой как тест KS , чтобы найти вероятность того, что данные распределения были сгенерированы различными PDF-файлами. Я думал, что мой первый вариант (выше) с использованием расстояния Манхэттена будет своего рода верхней границей того, что я мог бы получить, используя этот подход (поскольку статистика KS является максимальным абсолютным значением разности CDF, где расстояние Манхэттена является сумма абсолютных значений различий в PDF-файлах). Затем я рассмотрел объединение различных KS-статистики или P-значений в каждой точке данных, возможно, используя евклидово расстояние, но, возможно, просто взяв максимум всех этих значений.

  3. Наконец, пытаясь использовать то, что мало что могу истолковать о форме распределений, я подумал, что мог бы попытаться оценить параметры распределений в соответствии с кривой Вейбулла. Затем я мог бы сгруппировать распределения на основе различий в двух параметрах распределения Вейбулла, лямбда и k (масштаб и форма), возможно, нормализованных в соответствии с дисперсией этих параметров или что-то в этом роде. Это единственный случай, когда я подумал, что у меня может быть представление о том, как нормализовать параметры.

Поэтому мой вопрос: какую меру / методы вы бы порекомендовали для кластеризации распределений? Я даже на правильном пути с любым из них? K-Means - это даже хороший алгоритм для использования?

Изменить: уточнение данных.

Каждая точка данных (каждый объект, Objкоторый я хочу кластеризовать) на самом деле буквально содержит 5 vectorsданные. Я знаю, что есть ровно 5 фаз, в которых могут находиться эти объекты. Мы скажем (для упрощения), что у каждого вектора есть length N.

Каждый из этих векторов (назовет его vector i) является распределение вероятностей с целым числом x-valuesот 1 до N, где каждое из которых соответствует Y-значение соответствует вероятности измерения value xв phase iобъекте Obj. Тогда N - это максимальное значение x, которое я ожидаю измерить на любой фазе объекта (на самом деле это не фиксированное число в моем анализе).

Я определяю эти вероятности следующим образом:

  1. Я беру один Objи положить его в phase iтечение k trials, принимая измерения на каждом испытании. Каждое измерение представляет собой одно целое число. Я делаю это для каждой из 5 фаз одного объекта, и по очереди для каждого объекта. Мои необработанные данные измерений для одного объекта могут выглядеть следующим образом:

    Вектор 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    Вектор 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

    ...

    Вектор 5. [16, ... ..., 0]

  2. Затем я нормализую каждый из векторов отдельно, относительно общего количества измерений в данном заданном векторе. Это дает мне распределение вероятностей в этом векторе, где каждое соответствующее значение y представляет вероятность измерения value xв phase i.


1
Мне не ясно, как ваши точки данных могут «содержать» распределения. Не могли бы вы привести пример? Кроме того, Вейбулл не является дискретным распределением вероятностей, поэтому некоторые дополнительные уточнения были бы желательны.
mpiktas

@mpiktas: каждая точка данных представляет объект, который имеет 5 различных фаз. Поведение каждой фазы объекта теоретически может быть представлено непрерывной функцией распределения вероятностей, но мои данные содержат только дискретные выборки. Распределение Вейбулла, вероятно, является «теоретической» функцией, стоящей за моими данными, но сами данные представляют собой только измерения плотности в дискретных интервалах.
машина тоскует

Ответы:


5

(Вычислительная) Информационная геометрия - это поле, которое решает именно такие проблемы. У K-средних есть расширение, называемое K-средними Брегмана, в котором используются дивергенции (чей евклидов квадрат из стандартных K-средних является частным случаем, но также и Куллбэк-Лейблер). Данная дивергенция связана с распределением, например, квадрат от евклидова до гауссовского.

Вы также можете посмотреть на работу Фрэнка Нильсена , например,

Вы также можете взглянуть на расстояния Вассерштейна (оптимальный транспорт) , упоминаемые в предыдущем посте как расстояние перемещения Земли.


3

В своей статье об алгоритме EP-Средства Хендерсон и др. Рассматривают подходы к этой проблеме и дают свои собственные. Они считают:

  1. Кластеризация параметров - определение параметров для распределений на основе предшествующих знаний о распределении и кластеризация на основе этих параметров
    • обратите внимание, что здесь вы можете использовать любой функционал для данных, а не только оценки параметров, что полезно, если вы знаете, что ваши данные поступают из разных распределений
  2. Объединение гистограммы - разделите данные на ячейки и рассмотрите каждую ячейку как измерение, которое будет использоваться в пространственной кластеризации.
  3. L1

Другой метод, который я успешно использовал, состоит в том, чтобы кластеризовать все наблюдаемые точки из всех распределений по отдельности, а затем назначить распределению i мягкую вероятность, соответствующую пропорции его точек, которые попадают в каждый кластер. С другой стороны, разделить дистрибутивы намного сложнее. С другой стороны, он как бы саморегулируется и предполагает, что все распределения одинаковы. Я бы использовал его только тогда, когда это свойство регуляризации желательно.


1
$i$я$l_2$L2

1

Вы должны продолжить в два этапа. (1) сокращение данных и (2) кластеризация.

На шаге (1) вы должны тщательно проверить свои данные и определить разумное распределение вероятности для ваших данных. Вы, кажется, уже думали об этом шаге. Следующим шагом является оценка параметров этих распределений. Вы можете подгонять модель отдельно для каждой единицы, которая будет кластеризована, или может быть целесообразно использовать более сложную модель, такую ​​как обобщенная линейная смешанная модель.

Для шага (2) вы можете затем кластеризовать на основе этих оценок параметров. На этом этапе у вас должно быть небольшое количество оценок параметров на единицу. Как описано в ответе на этот пост , вы можете затем кластеризовать эти оценки параметров.

Этот ответ обязательно несколько расплывчатый - здесь нет «консервативного» решения, и для каждого шага требуется большой статистический анализ, чтобы выбрать из почти бесконечного числа методов, которые могут иметь отношение к ситуации, в зависимости от вашей уникальной проблемы. Утверждение вашего вопроса показывает, что вы самостоятельно изучили много статистических знаний, что похвально, но у вас все еще есть некоторые фундаментальные недопонимания основных статистических концепций, такие как различие между распределением вероятностей и наблюдениями от распределения вероятностей , Подумайте о прохождении / аудите курса математической статистики или двух.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.