Объяснение расстояния Махаланобиса снизу вверх?


127

Я изучаю распознавание образов и статистику, и почти в каждой книге, которую я открываю на эту тему, я сталкиваюсь с концепцией расстояния Махаланобиса . Книги дают интуитивно понятные объяснения, но все еще недостаточно хороши для того, чтобы я действительно мог понять, что происходит. Если бы кто-то спросил меня: «Каково расстояние Махаланобиса?» Я мог только ответить: «Это такая хорошая вещь, которая измеряет расстояние какой-то» :)

Определения, как правило, также содержат собственные векторы и собственные значения, с которыми у меня возникают небольшие проблемы при подключении к расстоянию Махаланобиса. Я понимаю определение собственных векторов и собственных значений, но как они связаны с расстоянием Махаланобиса? Это как-то связано с изменением базы в линейной алгебре и т. Д.?

Я также прочитал эти бывшие вопросы по этому вопросу:

Я также прочитал это объяснение .

Ответы хороши и фотографии хорошо, но все - таки я не очень понимаю ... У меня есть идея , но она по - прежнему в темноте. Может ли кто-нибудь дать объяснение «Как бы вы объяснили это своей бабушке», чтобы я мог наконец закончить это и никогда больше не задаваться вопросом, какого черта расстояние Махаланобиса? :) Откуда это взялось, что, почему?

ОБНОВИТЬ:

Вот что помогает понять формулу Махаланобиса:

https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

Ответы:


188

Вот диаграмма рассеяния некоторых многомерных данных (в двух измерениях):

введите описание изображения здесь

Что мы можем сделать из этого, когда оси не учтены?

введите описание изображения здесь

Введите координаты, которые предлагаются самими данными.

Начало координат будет в центре тяжести точек (точки их средних значений). Первый координатная ось (синяя на следующем рисунке) будет проходить вдоль «позвоночника» точек, которые (по определению) являются любым направлением , в котором дисперсия является наибольшей. Вторая ось координат (красный на рисунке) будет распространяться перпендикулярно по отношению к первой. (В более чем двух измерениях оно будет выбрано в том перпендикулярном направлении, в котором дисперсия настолько велика, насколько это возможно, и т. Д.)

введите описание изображения здесь

Нам нужен масштаб . Стандартное отклонение по каждой оси хорошо подходит для определения единиц по осям. Помните правило 68-95-99.7: около двух третей (68%) точек должны находиться в пределах одной единицы от начала координат (вдоль оси); около 95% должно быть в пределах двух единиц. Это облегчает поиск правильных единиц измерения. Для справки этот рисунок включает в себя круг единиц в этих единицах:

введите описание изображения здесь

Это не похоже на круг, не так ли? Это потому, что эта картина искажена (о чем свидетельствуют различные расстояния между числами на двух осях). Давайте перерисоваем его с осями в их правильной ориентации - слева направо и снизу вверх - и с соотношением сторон, чтобы одна единица по горизонтали действительно равнялась одной по вертикали:

введите описание изображения здесь

Вы измеряете расстояние Махаланобиса в этой картине, а не в оригинале.

Что здесь случилось? Мы позволим данным сказать нам, как построить систему координат для проведения измерений на диаграмме рассеяния. Вот и все. Хотя по пути у нас было несколько вариантов (мы всегда могли повернуть одну или обе оси в обратном направлении, а в редких случаях направления вдоль «шипов» - основные направления - не уникальны), они не изменяют расстояния в финальном сюжете.


Технические комментарии

(Не для бабушки, которая, вероятно, начала терять интерес, как только числа появились на графиках, но чтобы ответить на оставшиеся вопросы, которые были заданы.)

  • Единичные векторы вдоль новых осей являются собственными векторами (либо ковариационной матрицы, либо ее обратной).

  • Мы отметили, что неискажая эллипс, чтобы сделать круг, делит расстояние вдоль каждого собственного вектора на стандартное отклонение: квадратный корень из ковариации. Если обозначает функцию ковариации, то новое (махаланобисовое) расстояние между двумя точками и - это расстояние от до деленное на квадратный корень из . Соответствующие алгебраические операции, рассматривающие теперь с точки зрения его представления в виде матрицы и и с точки зрения их представления в качестве векторов, записываются в виде . Это работаетx y x y C ( x - y , x - y ) C x y CxyxyC(xy,xy)Cxy(xy)C1(xy)независимо от того, какой базис используется для представления векторов и матриц. В частности, это правильная формула для расстояния Махаланобиса в исходных координатах.

  • Величины, на которые оси расширяются на последнем шаге, представляют собой (квадратные корни) собственных значений обратной ковариационной матрицы. Эквивалентно, оси сжимаются (корнями) собственных значений ковариационной матрицы. Таким образом, чем больше разброс, тем больше сокращение, необходимое для преобразования этого эллипса в круг.

  • Хотя эта процедура всегда работает с любым набором данных, она выглядит так (классическое футбольное облако) для данных, которые приблизительно многомерны. В других случаях, точка усреднения может не быть хорошим представлением центра данных, или «шипы» (общие тренды в данных) не будут точно определены с использованием дисперсии в качестве меры разброса.

  • Смещение начала координат, вращение и расширение осей в совокупности образуют аффинное преобразование. Помимо этого начального сдвига, это изменение базиса от исходного (с использованием единичных векторов, указывающих в положительных направлениях координат) на новый (с использованием выбора единичных собственных векторов).

  • Существует тесная связь с анализом основных компонентов (PCA) . Одно это в значительной степени объясняет вопросы «откуда это» и «почему» - если вы еще не были убеждены в элегантности и полезности того, что данные позволяют определять координаты, которые вы используете для их описания, и измерять их различия.

  • Для многомерных нормальных распределений (где мы можем выполнить ту же конструкцию, используя свойства плотности вероятности вместо аналогичных свойств облака точек), расстояние Махаланобиса (до нового источника) появляется вместо « » в выражении , характеризующий плотность вероятности стандартного нормального распределения. Таким образом, в новых координатах многомерное нормальное распределение выглядит стандартным нормальнымexp ( - 1xexp(12x2)когда проецируется на любую линию через начало координат. В частности, это стандартный Normal в каждой из новых координат. С этой точки зрения, единственный существенный смысл, в котором многомерные нормальные распределения различаются между собой, заключается в том, сколько измерений они используют. (Обратите внимание, что это число измерений может быть, а иногда и меньше, чем номинальное количество измерений.)


3
Если кому-то любопытно, аффинное преобразование является «преобразованием, которое сохраняет прямые линии ... и отношения расстояний между точками, лежащими на прямой». (@whuber, я не знаю, хотите ли вы добавить что-то подобное в маркированную точку.)
gung

@gung Мое упоминание об аффинных преобразованиях сразу же сопровождается их характеристикой: перевод, за которым следует изменение основы. Я выбрал этот язык, потому что он используется в вопросе. (Мы должны несколько либерально принять «изменение базиса», чтобы охватить необратимые линейные преобразования: это важная проблема для PCA, которая эффективно отбрасывает некоторые
базовые

13
@ whuber, твоё объяснение, наверное, лучшее, что я когда-либо видел. Как правило, когда это объясняется, это очень абстрактно, когда они упоминают эллипсоиды и сферы, и они не показывают, что они имеют в виду. Спасибо вам за демонстрацию того, как преобразование оси преобразует распределение данных в «сферу», так что расстояние может быть «видно» как кратное число sd данных от среднего значения данных, как это легко можно сделать для одномерного данные. Эта визуализация, на мой взгляд, является ключевой, и, к сожалению, не учитывается в большинстве дискуссий по этой теме. Хорошая работа --- ваше объяснение

Есть ли надежный PCA? Разновидность, которая позволяет нам отбрасывать выбросы точек данных, глядя на размер ковариационной матрицы?
EngrStudent

@Engr Конечно: любая надежная оценка ковариационной матрицы приведет к надежному PCA. Существуют и другие прямые методы, о чем свидетельствуют ссылки на них в ответах на вопросы о надежном PCA .
whuber

37

Моя бабушка готовит. Твой мог бы тоже. Кулинария - вкусный способ научить статистике.

Тыквенное печенье Habanero просто потрясающее! Подумайте о том, насколько чудесными могут быть корица и имбирь в рождественских угощениях, а затем осознайте, насколько они горячие сами по себе.

Ингредиенты:

  • перец хабанеро (10 штук, мелко нарезанный)
  • сахар (1,5 стакана)
  • сливочное масло (1 стакан)
  • экстракт ванили (1 чайная ложка)
  • яйца (2 средних)
  • мука (2,75 чашки)
  • пищевая сода (1 чайная ложка)
  • соль (1 чайная ложка)

Представьте, что ваши оси координат для вашего домена являются объемами ингредиентов. Сахар. Мучной. Поваренная соль. Пищевая сода. Изменения в этих направлениях, при прочих равных условиях, почти не влияют на качество вкуса, как изменение количества перца хабанеро. 10% -ное изменение муки или масла сделает его менее значительным, но не убийственным. Добавление небольшого количества хабанеро приведет вас к утонченному вкусу от захватывающего десерта до болевого контеста на основе тестостерона.

Махаланобис - это не столько расстояние в «объемах ингредиентов», сколько расстояние от «лучшего вкуса». Действительно «мощные» ингредиенты, очень чувствительные к вариациям, - это те, которые вы должны наиболее тщательно контролировать.

Если вы думаете о каком-либо распределении Гаусса по сравнению со стандартным нормальным распределением, в чем разница? Центр и шкала основаны на центральной тенденции (среднее значение) и тенденции изменения (стандартное отклонение). Одним является преобразование координат другого. Махаланобис - это трансформация. Он показывает вам, как выглядит мир, если ваше распределение интересов было пересчитано как стандартное нормальное значение вместо гауссовского.


4
Гауссовы распределения - это нормальные распределения, так что же вы хотите сделать в своем последнем абзаце?
whuber

1
@Whuber - стандарт. Я имел ввиду стандарт. Думал, я это сказал. Следует проверить историю редактирования. Следующие предложения повторяют основную мысль.
EngrStudent

2
Что же вы имеете в виду под « в гауссовском распределении»?
whuber

1
Лучше? Это может быть распределение Гаусса с любым средним и дисперсией, но преобразование отображается в стандартную нормаль путем вычитания среднего значения и масштабирования на стандартное отклонение.
EngrStudent

4
Да, теперь все стало понятнее. Я озадачен, почему вы используете два термина (гауссовский и нормальный) для обозначения одной и той же вещи, но это нормально, теперь, когда вы это объяснили. Я также немного озадачен вашим последним утверждением, которое, похоже, говорит о том, что каждый многомерный дистрибутив можно превратить в стандартный Normal (который в соответствии с определением, на которое вы ссылаетесь, является одномерным ): я думаю, вы имеете в виду, что его можно сделать стандартным Нормально в каждом компоненте. Несмотря на это, аналогия, с которой вы начинаете, хороша.
whuber

10

d(x,y)=x,yxyRnxyX

xy

xC

Собирая вышеупомянутые идеи, мы достигаем вполне естественно

D(x,y)=(xy)C1(xy)

XiX=(X1,,Xn)Cij=δijXiVar(Xi)=1D(x,y) xyC(x,y)


9

Давайте рассмотрим случай двух переменных. Видя эту картину двумерного нормального (спасибо @whuber), вы не можете просто утверждать, что AB больше, чем AC. Существует положительная ковариация; две переменные связаны друг с другом.

Вы можете применять простые евклидовы измерения (прямые линии, такие как AB и AC), только если переменные

  1. независимый
  2. иметь дисперсии, равные 1.

По сути, мера расстояния Махаланобиса делает следующее: она преобразует переменные в некоррелированные переменные с дисперсией, равной 1, а затем вычисляет простое евклидово расстояние.


1
Вы предлагаете, что каждый раз, когда я вижу корреляцию на графике, как показано в вашем ответе здесь, я должен думать только о расчете махаланобиса, а не евклидова расстояния? Что скажет мне, когда использовать какой?
sandyp

7

Я постараюсь объяснить вам как можно проще:

Расстояние Махаланобиса измеряет расстояние от точки x до распределения данных. Распределение данных характеризуется средним значением и ковариационной матрицей, поэтому предполагается, что это многовариантный гауссов.

Он используется в распознавании образов как мера сходства между образцом (распределение данных обучающего примера класса) и тестовым примером. Ковариационная матрица дает форму распределения данных в пространстве признаков.

На рисунке обозначены три разных класса, а красная линия показывает одинаковое расстояние Махаланобиса для каждого класса.  Все точки, лежащие на красной линии, имеют одинаковое расстояние от среднего значения класса, поскольку используется ковариационная матрица.

На рисунке обозначены три разных класса, а красная линия показывает одинаковое расстояние Махаланобиса для каждого класса. Все точки, лежащие на красной линии, имеют одинаковое расстояние от среднего значения класса, поскольку используется ковариационная матрица.

Ключевой особенностью является использование ковариации в качестве фактора нормализации.


6

Я хотел бы добавить немного технической информации к отличному ответу Уубер. Эта информация может не интересовать бабушку, но, возможно, ее внук сочтет ее полезной. Ниже приводится пояснительное объяснение соответствующей линейной алгебры.

d(x,y)=(xy)TΣ1(xy)ΣΣΣΣ=QTDQΣ1=QD12D12QTd(x,y)=[(xy)TQ]D12D12[QT(xy)]=zTzQ(xy)D12D12D1zTz


5

Я мог бы немного опоздать на ответ на этот вопрос. Эта статья в здесь является хорошим началом для понимания расстояния Махаланобиса. Они предоставляют полный пример с числовыми значениями. Что мне нравится в этом, так это геометрическое представление проблемы.


4

Просто чтобы добавить к превосходным объяснениям выше, расстояние Махаланобиса естественным образом возникает в (многомерной) линейной регрессии. Это простое следствие некоторых связей между расстоянием Махаланобиса и гауссовским распределением, которые обсуждались в других ответах, но я думаю, что в любом случае это стоит разъяснить.

(x1,y1),,(xN,yN)xiRnyiRmβ0Rmβ1Rm×nyi=β0+β1xi+ϵiϵ1,,ϵNm0Cxiyixiβ0+β1xiC

yixiβ=(β0,β1)

logp(yixi;β)=m2log(2πdetC)+12(yi(β0+β1xi))C1(yi(β0+βxi)).
C
argminβ[logp(yixi;β)]=argminβDC(β0+β1xi,yi),
DC(y^,y)=(yy^)C1(yy^)
y^,yRm

В силу независимости логарифмическая вероятность из заданная задается суммой Следовательно, где фактор не влияет на argmin.logp(yx;β)y=(y1,,yN)x=(x1,,xN)

logp(yx;β)=i=1Nlogp(yixi;β)
argminβ[logp(yx;β)]=argminβ1Ni=1NDC(β0+β1xi,yi),
1/N

Таким образом, коэффициенты которые минимизируют отрицательное логарифмическое правдоподобие (т. Максимизируют вероятность) наблюдаемых данных, также минимизируют эмпирический риск данных с функцией потерь, определяемой расстоянием Махаланобиса.β0,β1


1
Ну, не совсем. Этот термин, соответствующий немного меняет дело. И вы, кажется, сосредоточились на другом измерении: расстояние Махаланобиса на самом деле играет гораздо более важную роль в мерном пространстве, охватываемом столбцами, потому что это связано с рычагом. Читатели, вероятно, будут смущены этим из-за изменения ролей и в вашей записи: - это вектор параметров, а - матрица дизайна! logdetCnxβxβ
whuber

Моим намерением было здесь обозначить один помеченный обучающий пример (поэтому здесь нет матрицы проектирования); причина, по которой является вектором, заключается в том, что я делаю многомерную регрессию (в противном случае шумовое выражение будет представлять собой гауссовскую переменную с одной переменной, не будет ковариационной матрицы, и пример может показаться слишком тривиальным). Возможно, мои обозначения нестандартны, так как мой фон не в статистике. Что касается наличия термина , я имел в виду, что . y ϵ log det C a r g m i n β [ - log p ( y x ; β ) ] = a r g m i n β (x,y)yϵlogdetCargminβ[logp(yx;β)]=argminβ(yβx)C1(yβx)
Бен CW

Важно объяснить, к чему относятся ваши символы, а не заставлять читателей угадывать. Вполне возможно, что ваше объяснение хорошее, но без этого объяснения (которое вы начали с этого последнего комментария) я подозреваю, что у большинства читателей возникнут проблемы с пониманием вашего значения.
whuber

2
Я понимаю вашу точку зрения. Я отредактировал оригинальный ответ, чтобы включить некоторые идеи в эти комментарии.
Бен CW

2

Расстояние Махаланобиса - это евклидово расстояние (естественное расстояние), которое учитывает ковариацию данных. Он придает больший вес шумному компоненту и поэтому очень полезен для проверки сходства между двумя наборами данных.

Как вы можете видеть в своем примере здесь, когда переменные коррелируют, распределение смещается в одном направлении. Вы можете удалить этот эффект. Если вы учитываете корреляцию на своем расстоянии, вы можете удалить эффект сдвига.


2
Я полагаю, что расстояние Махаланобиса эффективно уменьшает направления большой ковариации, а не дает "большие" веса там.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.