Как MANOVA связана с LDA?

В нескольких местах я видел утверждение о том, что MANOVA похожа на ANOVA плюс линейный дискриминантный анализ (LDA), но он всегда выполнялся в виде ручного махания. Я хотел бы знать, что именно это должно означать.

Я нашел различные учебники, описывающие все детали вычислений MANOVA, но, кажется, очень трудно найти хорошее общее обсуждение (не говоря уже о рисунках ), доступное для тех, кто не является статистиком.

anova discriminant-analysis manova

— амеба говорит восстановить монику
источник

Мои собственные локальные отчеты о родственниках LDA ANOVA и MANOVA - это , это . Может быть, они машут руками, но они в какой-то степени затрагивают вашу тему. Ключевое высказывание гласит, что «LDA - это MANOVA, погруженная в скрытую структуру». MANOVA - очень богатая установка для проверки гипотез; среди прочего он может анализировать скрытую структуру различий; этот анализ включает в себя LDA.

— ttnphns

@ttnphns, я боюсь, что мой предыдущий комментарий не был доставлен (я забыл указать ваше имя пользователя), поэтому позвольте мне повторить: Вау, спасибо, ваши связанные ответы, похоже, очень связаны с моим вопросом, и я, должно быть, пропустил их в моем поиске перед публикацией. Мне понадобится некоторое время, чтобы переварить их, и после этого я, возможно, вернусь к вам, но, может быть, вы уже сейчас могли бы указать мне на некоторые статьи / книги по этим темам? Я люблю , чтобы увидеть подробное обсуждение этого материала в стиле ваших связанных ответов.

— амеба говорит восстановить монику

Всего один старый и классический аккаунт webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf . Кстати, я не читал это сам до сих пор. Еще одна связанная статья dl.acm.org/citation.cfm?id=1890259 .

— ttnphns

@ttnphns: Спасибо. Я сам написал ответ на свой вопрос, в основном предоставив несколько иллюстраций и конкретный пример вашего превосходного связанного ответа на LDA / MANOVA. Я думаю, что они хорошо дополняют друг друга.

— говорит амеба: восстанови монику

В двух словах

Как один из способов MANOVA и ЛД начать с разложением общего разброса матрицей в матрицу рассеяния в классе , а также между классом-Разбросом матрицей , таким образом, что . Отметим , что это совершенно аналогично тому , как однофакторного дисперсионного анализа разлагается общая сумма-квадратов в пределах-класса , так и между суммами-класса-квадратов: . В ANOVA отношение затем вычисляется и используется для нахождения значения p: чем больше это отношение, тем меньше значение p. MANOVA и LDA составляют аналогичное многомерное количество $\mathbf T$ $\mathbf W$ $\mathbf B$ $\mathbf T = \mathbf W + \mathbf B$ $T$ $T=B+W$ $B/W$ . $\mathbf W^{-1} \mathbf B$

С этого момента они разные. Единственная цель MANOVA - проверить, одинаковы ли средства всех групп; это нулевая гипотеза означает, что должна быть одинаковой по размеру . Таким образом, MANOVA выполняет собственное разложение и находит его собственные значения . Идея состоит в том, чтобы проверить, достаточно ли они велики, чтобы отклонить ноль. Существует четыре распространенных способа формирования скалярной статистики из всего множества собственных значений . Один из способов - взять сумму всех собственных значений. Другой способ - взять максимальное собственное значение. В каждом случае, если выбранная статистика достаточно велика, нулевая гипотеза отклоняется. $\mathbf B$ $\mathbf W$ $\mathbf W^{-1} \mathbf B$ $\lambda_i$ $\lambda_i$

Напротив, LDA выполняет собственное разложение и смотрит на собственные векторы (не собственные значения). Эти собственные векторы определяют направления в пространстве переменных и называются дискриминантными осями . Проекция данных на первой дискриминантной оси , имеет самый высокий класс разделения (измеренный , как ); на второй - второй по величине; и т. д. Когда LDA используется для уменьшения размерности, данные могут проецироваться, например, по первым двум осям, а остальные отбрасываются. $\mathbf W^{-1} \mathbf B$ $B/W$

Смотрите также отличный ответ @ttnphns в другой ветке, которая охватывает почти ту же тему.

пример

Рассмотрим односторонний случай с зависимыми переменными и группами наблюдений (т.е. один фактор с тремя уровнями). Я возьму известный набор данных Ириса Фишера и рассмотрю только длину чашелистика и ширину чашелистика (чтобы сделать его двумерным). Вот график рассеяния: $M=2$ $k=3$

Диаграмма рассеяния Fisher Iris

Мы можем начать с вычисления ANOVA с длиной и шириной чашелистика по отдельности. Представьте, что точки данных проецируются вертикально или горизонтально по осям x и y, и выполняется односторонняя ANOVA для проверки, имеют ли три группы одинаковые средние значения. Мы получаем и для длины чашелистика, и и для ширины чашелистика. Итак, мой пример довольно плохой, так как три группы значительно отличаются по смешным значениям р по обоим показателям, но я все равно буду придерживаться этого. $F_{2,147}=119$ $p=10^{-31}$ $F_{2,147}=49$ $p=10^{-17}$

Теперь мы можем выполнить LDA, чтобы найти ось, которая максимально разделяет три кластера. Как описаны выше, вычисляется полная разброс матрица , в пределах класса рассы матрица и между классом рассой матрицей и найти собственные векторы . Я могу построить оба собственных вектора на одном графике рассеяния: $\mathbf{T}$ $\mathbf{W}$ $\mathbf{B}=\mathbf{T}-\mathbf{W}$ $\mathbf{W}^{-1}\mathbf{B}$

Fisher Iris LDA

Пунктирные линии - дискриминантные оси. Я построил их с произвольной длиной, но на более длинной оси показан собственный вектор с большим собственным значением (4.1), а более короткий - с меньшим собственным значением (0.02). Обратите внимание, что они не ортогональны, но математика LDA гарантирует, что проекции на эти оси имеют нулевую корреляцию.

$F=305$ $p=10^{-53}$ $p=10^{-5}$

$\mathbf{W}^{-1}\mathbf{B}$ $B/W$ $F=B/W \cdot (N-k)/(k-1) = 4.1\cdot 147/2 = 305$ $N=150$ $k=3$

$\lambda_1=4.1$ $\lambda_2=0.02$ $p=10^{-55}$

$F$ $(8,4)$

Fisher Iris LDA модифицированный

$p=10^{-55}$ $p=0.26$ $p=10^{-54}$ $\sim 5$ $p\approx0.05$ $p$

MANOVA против LDA как машинное обучение против статистики

Сейчас мне кажется, что это один из примеров того, как разные сообщества машинного обучения и сообщества статистики подходят к одному и тому же. Каждый учебник по машинному обучению охватывает LDA, показывает красивые картинки и т. Д., Но в нем даже не упоминается MANOVA (например, Bishop , Hastie и Murphy ). Вероятно, потому, что людей больше интересует точность классификации LDA (что примерно соответствует величине эффекта), и они не заинтересованы в статистической значимости различий в группах. С другой стороны, в учебниках по многомерному анализу будет обсуждаться MANOVA до тошноты, предоставляться множество табличных данных (arrrgh), но редко упоминается LDA и даже реже показываются какие-либо графики (напримерАндерсон или Харрис ; однако Rencher & Christensen do и Huberty & Olejnik даже называют «MANOVA и дискриминантный анализ»).

Факториал МАНОВА

Факториал MANOVA гораздо более запутанный, но его интересно рассмотреть, потому что он отличается от LDA в том смысле, что «факториальный LDA» на самом деле не существует, а факториальный MANOVA напрямую не соответствует никакому «обычному LDA».

$3\cdot 2=6$

факториал МАНОВА

На этом рисунке все шесть «ячеек» (я также буду называть их «группами» или «классами») хорошо разделены, что, конечно, редко случается на практике. Обратите внимание, что здесь очевидно, что есть существенные основные эффекты обоих факторов, а также значительный эффект взаимодействия (потому что верхняя правая группа смещена вправо; если бы я переместил ее в положение «сетки», то не было бы эффект взаимодействия).

Как в этом случае работают вычисления MANOVA?

Во-первых, MANOVA вычисляет объединенную матрицу рассеяния $\mathbf W$ $\mathbf B_A$ $\mathbf B_A$ $\mathbf W^{-1} \mathbf B_A$

$\mathbf B_B$ $\mathbf B_{AB}$

T знак равно В_{A} + В_{В} + В_{A В} + W,

$\mathbf T = \mathbf B_A + \mathbf B_B + \mathbf B_{AB} + \mathbf W.$ $\mathbf B$ не может быть однозначно разложен на сумму трех вкладов факторов, потому что факторы больше не являются ортогональными; это похоже на обсуждение SS типа I / II / III в ANOVA.]

$\mathbf B_A$ $\mathbf W_A=\mathbf T - \mathbf B_A$

$\mathbf W^{-1} \mathbf B_A$

— амеба говорит восстановить монику
источник

+1, это был хороший отчет об этом. я изменилB^-1 W на W^-1 B. Ваша картина с дискриминантами в качестве осей похожа на мой собственный сюжет , я полагаю, что вы использовали тот же подход "неортогонального вращения в соответствии с нормированными собственными векторами".

— ttnphns

Я нашел немного туманным

MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive

. МАНОВА, конечно, не знает о том, что мы делаем LDA. MANOVA просто потребляет больше df, чем ANOVA, потому что это 2-мерный тест, поэтому мощность значения p должна составлять -54 вместо -55.

— ttnphns

Я сомневаюсь, что следует говорить в терминах р-значений. Вместо этого ключевой момент, который MANOVA анализирует ту же матрицуW^-1 B что и LDA. LDA создает скрытые переменные (дискриминанты) из него. МАНОВА не делает; тем не менее, он исследует вышеупомянутую матрицу более всесторонне, вычисляя различные статистические данные (такие как след Пиллаи, след Хоттелинга), чтобы основывать их на тестировании.

— ttnphns

Сюжет, который будет метафорой MANOVA (и я думаю, что вы, возможно, захотите добавить его к своему ответу) в отличие от LDA (ваша вторая картинка), будет сюжетом, на котором 3 центроида соединены с большим центроидом пунктирными линиями. ,

— ttnphns

И, наконец, я не думаю, что вы правы, когда взвешиваете настолько большую разницу в статистике и машинном обучении. Я изучил статистический анализ данных, прежде чем услышал словоmachine learning в первый раз. И тексты, которые я прочитал, обсуждали LDA довольно много, вместе с MANOVA.

— ttnphns