Кажущееся несогласие источников по линейному, квадратичному и дискриминантному анализу Фишера

Я изучаю дискриминантный анализ, но мне трудно согласовать несколько разных объяснений. Я полагаю, что я что-то упускаю, потому что я никогда не сталкивался с этим (кажущимся) уровнем несоответствия раньше. При этом, количество вопросов о дискриминантном анализе на этом сайте, кажется, свидетельствует о его сложности.

LDA и QDA для нескольких классов

Мой основной учебник - «Прикладной многовариантный статистический анализ» (AMSA) «Johnson & Wichern» и примечания моего учителя, основанные на этом. Я проигнорирую настройку двух групп, потому что я считаю, что упрощенные формулы в этой настройке вызывают, по крайней мере, некоторую путаницу. Согласно этому источнику, LDA и QDA определяются как параметрическое (при условии многомерной нормальности) расширение правила классификации на основе ожидаемой стоимости ошибочной классификации (ECM). ECM суммирует условную ожидаемую стоимость для классификации нового наблюдения x для любой группы (включая затраты на неправильную классификацию и предыдущие вероятности), и мы выбираем области классификации, которые минимизируют это.

E C M = \sum_{i = 1}^{g r o u p s} p_{i} [\sum_{k = 1; i \neq k}^{g r o u p s} P (k | i) c (k | i)]

$ECM = \sum_{i=1}^{groups} p_i [\sum_{k=1;\space i \ne k}^{groups}P(k|i)c(k|i)]$ где,- плотность населения,

- набор наблюдений в группе k,

- стоимость, а

P (k | i) = P (classifying item as group k | item is group i) = \int_{R_{k}} f_{i} (x) d x

$P(k|i) = P(\text{classifying item as group k } | \text{ item is group i}) = \int_{R_k} f_i(\boldsymbol{x})d\boldsymbol{x}$

f_{i} (x)

$f_i(\boldsymbol{x})$

R_{k}

$R_k$

c

$c$

p_{i}

$p_i$ априорные вероятности. Новые наблюдения затем могут быть назначены группе, для которой внутренний термин является наименьшим или эквивалентно, для которого оставленная часть внутреннего члена

p_{k} f_{k} (x)

$p_k f_k(\boldsymbol{x})$ является самой большой

Предположительно, это правило классификации эквивалентно «правилу, которое максимизирует апостериорные вероятности» (sic AMSA), которое, как я могу только предположить, является байесовским подходом, о котором я уже упоминал. Это правильно? И ECM - более старый метод, потому что я никогда не видел, чтобы это происходило где-либо еще.

Для нормальных популяций это правило упрощается до квадратичной дискриминантной оценки:

d_{я}^{Q} (Икс) знак равно - \frac{1}{2} L о г (Σ_{я}) - \frac{1}{2} (Икс - μ_{я})^{T} Σ_{я}^{- 1} (Икс - μ_{я}) + L о г (п_{я})

$d_i^Q(\boldsymbol{x}) = -\frac{1}{2} log(\boldsymbol{\Sigma_i}) -\frac{1}{2} (\boldsymbol{x - \mu_i})^T \boldsymbol{\Sigma}_i^{-1}(\boldsymbol{x - \mu_i}) + log(p_i)$ .

Это кажется эквивалентным формуле 4.12 «Элементы статистического обучения» (ESL) на странице 110, хотя они описывают ее как квадратичную дискриминантную функцию, а не как оценку . Более того, они поступают сюда через логарифмическое соотношение многомерных плотностей (4.9). Это еще одно название подхода Байеса?

Когда мы предполагаем равную ковариацию, формула еще больше упрощается до линейной дискриминантной оценки .

d_{я} (Икс) знак равно μ_{я}^{T} Σ^{- 1} Икс - \frac{1}{2} μ_{я}^{T} Σ^{- 1} μ_{я} + L о г (п_{я})

$d_i(\boldsymbol{x}) = \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1}\boldsymbol{x} -\frac{1}{2} \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu_i} + log(p_i)$

Эта формула отличается от ESL (4.10), где первый член перевернут: . Версия ESL также указана в разделе « Статистическое обучение в R» . Кроме того, в выходных данных SAS, представленных в AMSA, описана линейная дискриминантная функция, состоящая из константы и коэффициента vector , по-видимому, соответствует версии ESL. $x^T \boldsymbol{\Sigma}^{-1}\mu_k$ $0.5 \bar{X}_j^T COV^{-1}\bar{X}_j + ln \text{ prior}_j$ $COV^{-1}\bar{X}_j$

В чем может быть причина этого несоответствия?

Дискриминанты и метод Фишера

Примечание: если этот вопрос считается слишком большим, я удалю этот раздел и открою новый вопрос, но он основан на предыдущем разделе. Приносим извинения за стену текста, я старался изо всех сил структурировать его, но я уверен, что мое замешательство по поводу этого метода привело к некоторым довольно странным скачкам логики.

Книга AMSA продолжает описывать метод Фишера, также для нескольких групп. Тем не менее, ttnphns отметил несколько раз , что FDA просто LDA с двумя группами. Что это за мультикласс FDA? Возможно, FDA может иметь несколько значений?

AMSA описывает дискриминанты Фишера как собственные векторы которые максимизируют отношение . Тогда линейные комбинации являются выборочными дискриминантами (из которых ). Для классификации мы выбираем группу k с наименьшим значением для где r - количество дискриминантов, которые мы хотели бы использовать. Если мы используем все дискриминанты, это правило будет эквивалентно линейной дискриминантной функции. $\boldsymbol{W^{-1}B}$ $\boldsymbol{\frac{\hat{a}^TB\hat{a}}{\hat{a}^TW\hat{a}}}$ $\boldsymbol{\hat{e}_ix}$ $min(g-1, p)$ $\sum_{j=1}^{r}[\boldsymbol{\hat{e}_j^T}(\boldsymbol{x}-\boldsymbol{\bar{x}}_k)]^2$

Многие объяснения относительно LDA, кажется, описывают методологию, которая называется FDA в книге AMSA, то есть, начиная с этого между / в аспекте изменчивости. Что тогда подразумевается под FDA, если не разложение матриц BW?

Это первый раз, когда в учебнике упоминается аспект уменьшения размерности дискриминантного анализа, в то время как в нескольких ответах на этом сайте подчеркивается двухэтапный характер этого метода, но это неясно в условиях двух групп, поскольку существует только 1 дискриминант. Учитывая вышеприведенные формулы для мультиклассовых LDA и QDA, мне все еще не ясно, где проявляются дискриминанты.

Этот комментарий особенно смутил меня, отметив, что байесовская классификация может быть выполнена по исходным переменным. Но если FDA и LDA математически эквивалентны, как указано в книге и здесь , не должно ли уменьшение размерности быть присуще функциям ? Я верю, что это то, к чему обращается последняя ссылка, но я не совсем уверен. $d_i$

Далее в заметках моего учителя объясняется, что FDA - это, по сути, форма канонического корреляционного анализа. Я нашел только 1 другой источник, в котором говорится об этом аспекте, но, опять же, похоже, он тесно связан с подходом Фишера, заключающимся в разложении между и внутри изменчивости. SAS представляет результат в своей процедуре LDA / QDA (DISCRIM), который, очевидно, связан с методом Фишера ( https://stats.stackexchange.com/a/105116/62518 ). Однако опция SAS FDA (CANDISC) по существу выполняет каноническую корреляцию, не представляя эти так называемые классификационные коэффициенты Фишера. Он представляет необработанные канонические коэффициенты, которые, как я считаю, эквивалентны собственным векторам W-1B R, полученным с помощью lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Классификационные коэффициенты, кажется, получены из дискриминантной функции, которую я описал в моем разделе LDA и QDA (поскольку на одну популяцию приходится 1 функция, и мы выбираем самую большую).

Я был бы благодарен за любые разъяснения или ссылки на источники, которые могли бы помочь мне увидеть лес сквозь деревья. Основная причина моего замешательства, похоже, заключается в том, что разные учебники называют методы под разными именами или представляют небольшую разницу в математике, не признавая других возможностей, хотя я полагаю, что это не должно вызывать удивления, учитывая возраст книги AMSA. ,

multivariate-analysis discriminant-analysis

— Зенит
источник

If we use all the discriminants this rule would be equivalent to the linear discriminant functionНеясно. «Дискриминант» и «дискриминантная функция» являются синонимами. Вы можете использовать все дискриминанты или только несколько сильнейших / значимых из них. Я не обращался к книге AMSA, но подозреваю, что FDA = LDA, для авторов. На самом деле, я лично считаю, что «Fisher LDA» будет излишним, ненужным термином.

— ttnphns

В «Дополнении» к этому ответу о классификации LDA я замечаю, что вычисление «функций линейной классификации Фишера» непосредственно из переменных эквивалентно тому, Extract the discriminants -> classify by them all (using Bayes approach, as usual)когда, как обычно по умолчанию, объединенная внутриклассовая ковариационная матрица дискриминантов используется в классификации.

— ttnphns

На самом деле, «функции линейной классификации Фишера» - это способ сделать LDA без собственного разложения, W^-1Bа затем выполнить «байесовский анализ ». Это эквивалентно, но менее гибко (Вы не можете выбрать только несколько дискриминантов, вы не можете использовать отдельные в ковариационных матрицах при классификации и т. Д.).

— ttnphns

W^{- 1} B

$\boldsymbol{W^{-1}B}$

Зенит, для меня дискриминантная оценка - это значение (канонической) дискриминантной функции. Я не могу зайти так далеко, чтобы сравнить приведенные вами формулы с тем, что я знаю о том, как канонические дискриминанты вычисляются в SPSS . Я предлагаю вам сделать расчеты и сравнить результаты, и опубликовать ваши выводы. Также я подозреваю, что разные тексты могут по-разному наносить ярлык «Фишер».

— ttnphns

Я обращаюсь только к одному аспекту вопроса и делаю это интуитивно без алгебры.

$g$ $p$ $q=min(g-1,p)$ $V_1, V_2, V_3$ $q=g-1=2$ $D_1, D_2$

Дискриминанты являются некоррелированными переменными, их ковариационные матрицы внутри класса являются идеально тождественными (шарики). Дискриминанты образуют подпространство пространства исходных переменных - это их линейные комбинации. Однако они не являются осями, подобными вращению (PCA-подобными): видимые в пространстве исходных переменных дискриминанты как оси не взаимно ортогональны .

$m<q$

$g$ $p$ $g$ $q$ $^1$

$q$ $p$ ) вместо их объединенной матрицы (которая является тождеством).

(И да, LDA можно рассматривать как тесно связанный, даже в конкретном случае, с MANOVA и каноническим корреляционным анализом или многомерной регрессией пониженного ранга - см. , См. , См .)

$^1$ $g$ $q$ $\bf W^{-1}B$ ). Для ясности я рекомендую сказать «классификационные функции Фишера» против «канонических дискриминантных функций» (= дискриминанты, для краткости). В современном понимании LDA - это канонический линейный дискриминантный анализ. «Дискриминантный анализ Фишера» - это, по крайней мере, мне известно, либо LDA с 2 классами (где один канонический дискриминант неизбежно совпадает с классификационными функциями Фишера), либо, в общем, вычисление классификационных функций Фишера в мультиклассовых настройках.

— ttnphns
источник

В отношении терминологии: в статье Википедии о LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) говорится, что «термины линейный дискриминант Фишера и LDA часто используются взаимозаменяемо, хотя в оригинальной статье Фишера [1] фактически описывается несколько иной дискриминант, который не делать некоторые из допущений LDA, таких как нормально распределенные классы или равные классовые ковариации ". Исходя из этого, LDA для 2 классов представляется частным случаем «FDA», если групповые ковариации «одинаковы». @ttnphns: это правильно?

— Ларикс Децидуа

@LaryxDecidua, я не на 100% уверен в терминологии в этом случае, и я видел разные мнения. Я не использую термин "DA Фишера" вообще. Но когда люди спрашивают, я отвечаю: «FDA - это LDA с 2 классами».

— ttnphns

Спасибо, для меня наиболее интересным аспектом является то, что «FDA», согласно Википедии, не принимает нормальность, в то время как «LDA» (и QDA) делают. Возможно, «FDA - это LDA с 2 классами, не предполагающими нормальности или гомоскедастичности».

— Ларикс Децидуа