Измерение «расстояния» между двумя многомерными распределениями

28

Я ищу хорошую терминологию для описания того, что я пытаюсь сделать, чтобы упростить поиск ресурсов.

Итак, скажем, у меня есть две группы точек A и B, каждая из которых связана с двумя значениями, X и Y, и я хочу измерить «расстояние» между A и B - то есть, насколько вероятно, что они были отобраны из одного и того же распределения (Могу предположить, что распределения нормальные). Например, если X и Y коррелированы в A, но не в B, распределение будет другим.

Интуитивно понятно, что я получу ковариационную матрицу A, а затем посмотрим, какова вероятность того, что каждая точка в B вписывается туда, и наоборот (возможно, используя что-то вроде расстояния Махаланобиса).

Но это немного "ad-hoc", и, вероятно, есть более строгий способ описать это (конечно, на практике у меня более двух наборов данных с более чем двумя переменными - я пытаюсь определить, какой из моих наборов данных являются выбросами).

Благодарность!

multivariate-analysis terminology distance-functions

— Emile
источник

Не знаю почему, но тест на каминную полку мелькнул перед моими глазами, когда я читал твой пост.

— Роман Луштрик

15

Существует также расхождение Кульбака-Лейблера , которое связано с расстоянием Хеллингера, о котором вы упоминали выше.

— Восстановить Монику - Дж. Симпсон
источник

2

Можно ли рассчитать расхождение точек Кульбака-Лейблера, не делая предположения о базовой плотности вероятности, из которой получены точки?

— Андре Хольцнер

16

Хм, расстояние Бхаттачарья, кажется, то, что я ищу, хотя расстояние Хеллингера тоже работает.

— Emile
источник

Вы упоминаете Бхаттачарью и Хеллинга, а затем принимаете ответ, говоря о КЛ ... В конце концов, какой был ваш выбор и почему?

— Саймон С.

1

Я полагаю, что это была дивергенция KL, но ... это было в 2010 году, и моя память далека от совершенства.

— Эмиль

ахах да, я догадался, но все равно спасибо!

— Саймон С.

9

эвристический

Минковский-форма
Средневзвешенная дисперсия (WMV)

Статистика непараметрических тестов

2 (Площадь Чи)
Колмогоров-Смирнов (КС)
Крамер / фон Мизес (CvM)

Информационно-теоретические расхождения

Куллбек-Либлер (КЛ)
Расхождение Дженсена – Шеннона (метрика)
Джеффри-дивергенция (численно устойчивая и симметричная)

Измерения расстояния от земли

Пересечение гистограммы
Квадратичная форма (QF)
Расстояние движения Земли (EMD)

— Skyde
источник

7

Наиболее полный обзор представлен в разделе «Статистический вывод на основе показателей дивергенции » Леандро Пардо, Университет Комплутенсе, Чепмен Холл, 2006.

— Марк Салмон
источник

0

Еще несколько показателей "Статистическая разница"

Тест перестановки (Фишер)
Центральная предельная теорема и теорема Слуцкого
Тест Манна-Уитни-Вилкоксина
Тест Андерсона – Дарлинга
Тест Шапиро – Вилка
Тест Хосмера – Лемешоу
Тест Кейпера
ядерное расхождение Штейна
Жаккар сходство
Кроме того, иерархическая кластеризация имеет дело с мерами сходства между группами. Наиболее популярными показателями группового сходства являются, возможно, единая связь, полная связь и средняя связь.

— Данил Жеребецкий
источник