В двух словах
Как один из способов MANOVA и ЛД начать с разложением общего разброса матрицей в матрицу рассеяния в классе Вт , а также между классом-Разбросом матрицей В , таким образом, что Т = Ш + В . Отметим , что это совершенно аналогично тому , как однофакторного дисперсионного анализа разлагается общая сумма-квадратов T в пределах-класса , так и между суммами-класса-квадратов: Т = B + W . В ANOVA отношение B / W затем вычисляется и используется для нахождения значения p: чем больше это отношение, тем меньше значение p. MANOVA и LDA составляют аналогичное многомерное количество W - 1TWВT = W + BTT= B + WЧ / б .W- 1В
С этого момента они разные. Единственная цель MANOVA - проверить, одинаковы ли средства всех групп; это нулевая гипотеза означает, что должна быть одинаковой по размеру W . Таким образом, MANOVA выполняет собственное разложение W - 1 B и находит его собственные значения λ i . Идея состоит в том, чтобы проверить, достаточно ли они велики, чтобы отклонить ноль. Существует четыре распространенных способа формирования скалярной статистики из всего множества собственных значений λ i . Один из способов - взять сумму всех собственных значений. Другой способ - взять максимальное собственное значение. В каждом случае, если выбранная статистика достаточно велика, нулевая гипотеза отклоняется.ВWW- 1Вλяλя
Напротив, LDA выполняет собственное разложение и смотрит на собственные векторы (не собственные значения). Эти собственные векторы определяют направления в пространстве переменных и называются дискриминантными осями . Проекция данных на первой дискриминантной оси , имеет самый высокий класс разделения (измеренный , как B / W ); на второй - второй по величине; и т. д. Когда LDA используется для уменьшения размерности, данные могут проецироваться, например, по первым двум осям, а остальные отбрасываются.W- 1ВЧ / б
Смотрите также отличный ответ @ttnphns в другой ветке, которая охватывает почти ту же тему.
пример
Рассмотрим односторонний случай с зависимыми переменными и k = 3 группами наблюдений (т.е. один фактор с тремя уровнями). Я возьму известный набор данных Ириса Фишера и рассмотрю только длину чашелистика и ширину чашелистика (чтобы сделать его двумерным). Вот график рассеяния:M= 2к = 3
Мы можем начать с вычисления ANOVA с длиной и шириной чашелистика по отдельности. Представьте, что точки данных проецируются вертикально или горизонтально по осям x и y, и выполняется односторонняя ANOVA для проверки, имеют ли три группы одинаковые средние значения. Мы получаем и p = 10 - 31 для длины чашелистика, и F 2 , 147 = 49 и p = 10 - 17 для ширины чашелистика. Итак, мой пример довольно плохой, так как три группы значительно отличаются по смешным значениям р по обоим показателям, но я все равно буду придерживаться этого.F2 , 147= 119р = 10- 31F2 , 147= 49р = 10- 17
Теперь мы можем выполнить LDA, чтобы найти ось, которая максимально разделяет три кластера. Как описаны выше, вычисляется полная разброс матрица , в пределах класса рассы матрица W и между классом рассой матрицей В = Т - W и найти собственные векторы W - 1 Б . Я могу построить оба собственных вектора на одном графике рассеяния:TWB = T - WW- 1В
Пунктирные линии - дискриминантные оси. Я построил их с произвольной длиной, но на более длинной оси показан собственный вектор с большим собственным значением (4.1), а более короткий - с меньшим собственным значением (0.02). Обратите внимание, что они не ортогональны, но математика LDA гарантирует, что проекции на эти оси имеют нулевую корреляцию.
F= 305р = 10- 53р = 10- 5
W- 1ВЧ / бF= Ч / б⋅ ( N- к ) / ( K - 1 ) = 4.1 ⋅ 147 / 2 = 305N= 150к = 3
λ1= 4.1λ2= 0,02р = 10- 55
F( 8 , 4 )
р = 10- 55р = 0,26п= 10- 54∼ 5р ≈ 0,05п
MANOVA против LDA как машинное обучение против статистики
Сейчас мне кажется, что это один из примеров того, как разные сообщества машинного обучения и сообщества статистики подходят к одному и тому же. Каждый учебник по машинному обучению охватывает LDA, показывает красивые картинки и т. Д., Но в нем даже не упоминается MANOVA (например, Bishop , Hastie и Murphy ). Вероятно, потому, что людей больше интересует точность классификации LDA (что примерно соответствует величине эффекта), и они не заинтересованы в статистической значимости различий в группах. С другой стороны, в учебниках по многомерному анализу будет обсуждаться MANOVA до тошноты, предоставляться множество табличных данных (arrrgh), но редко упоминается LDA и даже реже показываются какие-либо графики (напримерАндерсон или Харрис ; однако Rencher & Christensen do и Huberty & Olejnik даже называют «MANOVA и дискриминантный анализ»).
Факториал МАНОВА
Факториал MANOVA гораздо более запутанный, но его интересно рассмотреть, потому что он отличается от LDA в том смысле, что «факториальный LDA» на самом деле не существует, а факториальный MANOVA напрямую не соответствует никакому «обычному LDA».
3 ⋅ 2 = 6
На этом рисунке все шесть «ячеек» (я также буду называть их «группами» или «классами») хорошо разделены, что, конечно, редко случается на практике. Обратите внимание, что здесь очевидно, что есть существенные основные эффекты обоих факторов, а также значительный эффект взаимодействия (потому что верхняя правая группа смещена вправо; если бы я переместил ее в положение «сетки», то не было бы эффект взаимодействия).
Как в этом случае работают вычисления MANOVA?
Во-первых, MANOVA вычисляет объединенную матрицу рассеяния WВAВAW- 1ВA
ВВВA B
T = BA+ BВ+ BA B+ W .
Вне может быть однозначно разложен на сумму трех вкладов факторов, потому что факторы больше не являются ортогональными; это похоже на обсуждение SS типа I / II / III в ANOVA.]
ВAWA= T - BA
W- 1ВA