Измерение «расстояния» между двумя многомерными распределениями


28

Я ищу хорошую терминологию для описания того, что я пытаюсь сделать, чтобы упростить поиск ресурсов.

Итак, скажем, у меня есть две группы точек A и B, каждая из которых связана с двумя значениями, X и Y, и я хочу измерить «расстояние» между A и B - то есть, насколько вероятно, что они были отобраны из одного и того же распределения (Могу предположить, что распределения нормальные). Например, если X и Y коррелированы в A, но не в B, распределение будет другим.

Интуитивно понятно, что я получу ковариационную матрицу A, а затем посмотрим, какова вероятность того, что каждая точка в B вписывается туда, и наоборот (возможно, используя что-то вроде расстояния Махаланобиса).

Но это немного "ad-hoc", и, вероятно, есть более строгий способ описать это (конечно, на практике у меня более двух наборов данных с более чем двумя переменными - я пытаюсь определить, какой из моих наборов данных являются выбросами).

Благодарность!


Не знаю почему, но тест на каминную полку мелькнул перед моими глазами, когда я читал твой пост.
Роман Луштрик

Ответы:


15

Существует также расхождение Кульбака-Лейблера , которое связано с расстоянием Хеллингера, о котором вы упоминали выше.


2
Можно ли рассчитать расхождение точек Кульбака-Лейблера, не делая предположения о базовой плотности вероятности, из которой получены точки?
Андре Хольцнер

16

Хм, расстояние Бхаттачарья, кажется, то, что я ищу, хотя расстояние Хеллингера тоже работает.


Вы упоминаете Бхаттачарью и Хеллинга, а затем принимаете ответ, говоря о КЛ ... В конце концов, какой был ваш выбор и почему?
Саймон С.

1
Я полагаю, что это была дивергенция KL, но ... это было в 2010 году, и моя память далека от совершенства.
Эмиль

ахах да, я догадался, но все равно спасибо!
Саймон С.

9

эвристический

  • Минковский-форма
  • Средневзвешенная дисперсия (WMV)

Статистика непараметрических тестов

  • 2 (Площадь Чи)
  • Колмогоров-Смирнов (КС)
  • Крамер / фон Мизес (CvM)

Информационно-теоретические расхождения

  • Куллбек-Либлер (КЛ)
  • Расхождение Дженсена – Шеннона (метрика)
  • Джеффри-дивергенция (численно устойчивая и симметричная)

Измерения расстояния от земли

  • Пересечение гистограммы
  • Квадратичная форма (QF)
  • Расстояние движения Земли (EMD)


0

Еще несколько показателей "Статистическая разница"

  • Тест перестановки (Фишер)
  • Центральная предельная теорема и теорема Слуцкого
  • Тест Манна-Уитни-Вилкоксина
  • Тест Андерсона – Дарлинга
  • Тест Шапиро – Вилка
  • Тест Хосмера – Лемешоу
  • Тест Кейпера
  • ядерное расхождение Штейна
  • Жаккар сходство
  • Кроме того, иерархическая кластеризация имеет дело с мерами сходства между группами. Наиболее популярными показателями группового сходства являются, возможно, единая связь, полная связь и средняя связь.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.