Существует ли связь между регрессией и линейным дискриминантным анализом (LDA)? Каковы их сходства и различия? Имеет ли какое-то значение, если есть два класса или более двух классов?
Существует ли связь между регрессией и линейным дискриминантным анализом (LDA)? Каковы их сходства и различия? Имеет ли какое-то значение, если есть два класса или более двух классов?
Ответы:
Я так понимаю, что речь идет о LDA и линейной (не логистической) регрессии.
Существует значительная и значимая связь между линейной регрессией и линейным дискриминантным анализом . В случае, если зависимая переменная (DV) состоит только из 2 групп, два анализа фактически идентичны. Несмотря на то, что вычисления различны и результаты - коэффициенты регрессии и дискриминанта - не одинаковы, они точно пропорциональны друг другу.
Теперь о ситуации более двух групп. Во-первых, позвольте нам утверждать, что LDA (его извлечение, а не стадия классификации) эквивалентно (линейно связанные результаты) каноническому корреляционному анализу, если вы превращаете группировку DV в набор фиктивных переменных (с одним исключенным из них излишним) и делаете канонический анализ с наборами "IVs" и "чайников". Канонические различия на стороне набора «IV», которые вы получаете, - это то, что LDA называет «дискриминантными функциями» или «дискриминантами».
Итак, как же канонический анализ связан с линейной регрессией? Канонический анализ по сути является МАНОВОЙ (в смысле «многомерная множественная линейная регрессия» или «многомерная общая линейная модель»), углубленная в латентную структуруотношений между DV и IV. Эти две вариации разлагаются в своих взаимосвязях на скрытые "канонические вариации". Давайте возьмем самый простой пример: Y против X1 X2 X3. Максимизация корреляции между двумя сторонами - это линейная регрессия (если вы предсказываете Y по X), или - что то же самое - это MANOVA (если вы предсказываете X по Y). Корреляция одномерна (с величиной R ^ 2 = след Пиллаи), потому что меньшее множество, Y, состоит только из одной переменной. Теперь давайте возьмем эти два набора: Y1 Y2 против X1 x2 x3. Максимальная корреляция здесь является 2-мерной, потому что меньший набор содержит 2 переменные. Первое и более сильное скрытое измерение корреляции называется 1-й канонической корреляцией, а оставшаяся часть, ортогональная ей, 2-й канонической корреляцией. Так, MANOVA (или линейная регрессия) просто спрашивает, каковы частичные роли (коэффициенты) переменных во всей двумерной корреляции множеств; в то время как канонический анализ просто идет ниже, чтобы спросить, каковы частичные роли переменных в 1-м корреляционном измерении и во 2-м.
Таким образом, канонический корреляционный анализ представляет собой многомерную линейную регрессию, углубленную в скрытую структуру взаимоотношений между DV и IV. Дискриминантный анализ является частным случаем канонического корреляционного анализа ( смотрите, как именно ). Итак, здесь был ответ об отношении LDA к линейной регрессии в общем случае более двух групп.
Обратите внимание, что мой ответ совсем не рассматривает LDA как метод классификации. Я обсуждал LDA только как метод извлечения латентов. Классификация является вторым и отдельным этапом LDA (я описал это здесь ). @ Майкл Черник сосредоточился на этом в своих ответах.
regression formulation of LDA
то, на удивление трудно что-то найти - после 2000 года было опубликовано несколько научных работ, в которых говорится, что такой формулировки не существует или пытаясь предложить один. Возможно, есть хорошая [старая] ссылка?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
, Olcay Kursun et al. Canonical correlation analysis using within-class coupling
, Если вы не можете найти их в интернете, я могу отправить вам. Если вы найдете больше и лучшие источники - пожалуйста, сообщите нам.
Вот ссылка на одну из статей Эфрона: «Эффективность логистической регрессии по сравнению с обычным дискриминантным анализом» , 1975.
Еще одна важная статья - Ng & Jordan, 2001, « О дискриминационных и порождающих классификаторах: сравнение логистической регрессии и наивного байесовского алгоритма» . А вот резюме комментария к нему Xue & Titterington , 2008, в котором упоминаются работы О'Нила, связанные с его диссертацией:
Сравнение порождающих и дискриминационных классификаторов - вечная тема. В качестве важного вклада в эту тему, основываясь на своих теоретических и эмпирических сравнениях между наивным байесовским классификатором и линейной логистической регрессией, Нг и Джордан (NIPS 841 - 848, 2001) утверждали, что существуют два различных режима работы между генеративными и дискриминационные классификаторы в отношении размера обучающего набора. В этой статье наши эмпирические и имитационные исследования, как дополнение к их работе, однако, предполагают, что существование двух различных режимов не может быть настолько надежным. Кроме того, для наборов данных реального мира до сих пор не существует теоретически правильного общего критерия выбора между дискриминационным и генеративным подходами к классификации наблюдений. в класс ; выбор зависит от относительной уверенности в правильности спецификации либо либо для данных. Это может быть до некоторой степени демонстрацией того, почему Эфрон (J Am Stat Assoc 70 (352): 892 --- 898, 1975) и О'Нил (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) предпочитают нормальный линейный дискриминантный анализ (LDA), когда не происходит неправильной спецификации модели, но другие эмпирические исследования могут предпочесть линейную логистическую регрессию. Кроме того, мы предполагаем, что спаривание либо LDA, предполагающего общую диагональную ковариационную матрицу (LDA), либо наивного байесовского классификатора и линейной логистической регрессии, может быть неидеальным, и, следовательно, оно может быть ненадежным для любого утверждения, полученного из сравнения между LDA или наивный байесовский классификатор и линейная логистическая регрессия, которые должны быть обобщены для всех порождающих и дискриминационных классификаторов.
Есть много других ссылок на это, которые вы можете найти в Интернете.
Цель этого ответа - объяснить точную математическую связь между линейным дискриминантным анализом (LDA) и многомерной линейной регрессией (MLR). Оказывается, что правильную основу обеспечивает регрессия пониженного ранга (RRR).
Мы покажем, что LDA эквивалентно RRR матрицы отбеленных индикаторов классов в матрице данных.
Пусть будет матрицей n × d с точками данных x i в строках и переменными в столбцах. Каждая точка принадлежит одному из k классов или групп. Точка x i принадлежит классу номер g ( i ) .
Пусть будет членством группы кодирования матрицы индикаторов n × k следующим образом: G i j = 1, если x i принадлежит классу j , и G i j = 0 в противном случае. В классе j имеется n j точек данных ; конечно ∑ n j = n .
Мы предполагаем, что данные центрированы и поэтому глобальное среднее равно нулю, . Пусть µ j - среднее значение класса j .
Матрица полного рассеяния может быть разложена на сумму матриц рассеяния между классами и внутри классов, определяемых следующим образом: C b Можно проверить, чтоC=Cb+Cw. LDA ищет дискриминантные оси, которые имеют максимальную дисперсию между группами и минимальную внутригрупповую дисперсию проекции. В частности, первая дискриминантная ось представляет собой единичный векторw,максимизирующийw⊤Cbw/(w⊤C
Предполагая, что является полным рангом, решение LDA W L D A является матрицей собственных векторов C - 1 w C b (упорядоченных по собственным значениям в порядке убывания).
Это была обычная история. Теперь давайте сделаем два важных замечания.
Для простоты начнем со случая сбалансированного набора данных.
This finishes the proof. For unbalanced datasets we need to replace with .
One can similarly show that adding ridge regularization to the reduced rank regression is equivalent to the regularized LDA.
In his answer, @ttnphns made a connection to canonical correlation analysis (CCA). Indeed, LDA can be shown to be equivalent to CCA between and . In addition, CCA between any and can be written as RRR predicting whitened from . The rest follows from this.
It is hard to say who deserves the credit for what is presented above.
There is a recent conference paper by Cai et al. (2013) On The Equivalent of Low-Rank Regressions and Linear Discriminant Analysis Based Regressions that presents exactly the same proof as above but creates the impression that they invented this approach. This is definitely not the case. Torre wrote a detailed treatment of how most of the common linear multivariate methods can be seen as reduced rank regression, see A Least-Squares Framework for Component Analysis, 2009, and a later book chapter A unification of component analysis methods, 2013; he presents the same argument but does not give any references either. This material is also covered in the textbook Modern Multivariate Statistical Techniques (2008) by Izenman, who introduced RRR back in 1975.
The relationship between LDA and CCA apparently goes back to Bartlett, 1938, Further aspects of the theory of multiple regression -- that's the reference I often encounter (but did not verify). The relationship between CCA and RRR is described in the Izenman, 1975, Reduced-rank regression for the multivariate linear model. So all of these ideas have been around for a while.
Linear regression and linear discriminant analysis are very different. Linear regression relates a dependent variable to a set of independent predictor variables. The idea is to find a function linear in the parameters that best fits the data. It does not even have to be linear in the covariates. Linear discriminant analysis on the other hand is a procedure for classifying objects into categories. For the two-class problem it seeks to find the best separating hyperplane for dividing the groups into two catgories. Here best means that it minimizes a loss function that is a linear combination of the error rates. For three or more groups it finds the best set of hyperplanes (k-1 for the k class problem). In discriminant analysis the hypoerplanes are linear in the feature variables.
The main similarity between the two is term linear in the titles.