Я ищу хорошую терминологию для описания того, что я пытаюсь сделать, чтобы упростить поиск ресурсов.
Итак, скажем, у меня есть две группы точек A и B, каждая из которых связана с двумя значениями, X и Y, и я хочу измерить «расстояние» между A и B - то есть, насколько вероятно, что они были отобраны из одного и того же распределения (Могу предположить, что распределения нормальные). Например, если X и Y коррелированы в A, но не в B, распределение будет другим.
Интуитивно понятно, что я получу ковариационную матрицу A, а затем посмотрим, какова вероятность того, что каждая точка в B вписывается туда, и наоборот (возможно, используя что-то вроде расстояния Махаланобиса).
Но это немного "ad-hoc", и, вероятно, есть более строгий способ описать это (конечно, на практике у меня более двух наборов данных с более чем двумя переменными - я пытаюсь определить, какой из моих наборов данных являются выбросами).
Благодарность!