Алгебра LDA. Различающая способность Фишера переменной и линейный дискриминантный анализ

По-видимому,

Анализ Фишера направлен на одновременное максимальное разделение между классами, одновременно сводя к минимуму дисперсию внутри класса. Следовательно, полезная мера степени различения переменной определяется диагональной величиной: $B_{ii}/W_{ii}$ .

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

Я понимаю , что размер ( p x p) из С ( Б ) и В-класса ( W ) матрицы задается числом входных переменных, p. Учитывая это, как $B_{ii}/W_{ii}$ может быть «полезной мерой силы различения» одной переменной? Для построения матриц B и W требуются как минимум две переменные, поэтому соответствующие трассы будут представлять более одной переменной.

Обновление: Правильно ли я считаю, что - это не след за следом, где подразумевается сумма, а матричный элемент деленный на ? В настоящее время это единственный способ примирить выражение с концепцией. $B_{ii}/W_{ii}$ $B_{ii}$ $W_{ii}$

— категория
источник

Вот короткий рассказ о линейном дискриминантном анализе (LDA) в ответ на вопрос.

Когда у нас есть одна переменная и групп (классов) для ее различения, это ANOVA. Дискриминация сила переменной , или . $k$ $SS_\text{between groups} / SS_\text{within groups}$ $B/W$

Когда у нас есть переменных, это MANOVA. Если переменные не коррелированы ни в общей выборке, ни в группах, то вышеуказанная мощность различения, , вычисляется аналогично и может быть записана как где - объединенная матрица рассеяния внутри группы (то есть сумма SSCP-матриц переменных, центрированных относительно центроида соответствующих групп); $p$ $B/W$ $trace(\bf{S_b})$ $/trace(\bf{S_w})$ $\bf{S_w}$ $k$ p x p $\bf{S_b}$ - матрица рассеяния между группами , где - матрица рассеяния для целых данных (SSCP-матрица переменных, центрированных вокруг большого центроида. («Матрица рассеяния» - это просто ковариационная матрица без разделения) по sample_size-1.) $=\bf{S_t}-\bf{S_w}$ $\bf{S_t}$

Когда есть некоторая корреляция между переменными - и обычно есть - вышеупомянутый выражается как который больше не является скаляром, а матрицей. Это просто из-за того, что за этой «общей» дискриминацией скрыты дискриминационных переменных, которые частично разделяют ее. $B/W$ $\bf{S_w^{-1} S_b}$ $p$

Теперь мы можем захотеть погрузиться в MANOVA и разложить на новые и взаимно ортогональные скрытые переменные (их число равно ), называемые дискриминантными функциями или дискриминантами - 1-й является самым сильным дискриминатор, второе место позади и т. д. Точно так же, как мы делаем это в анализе основных компонентов. Мы заменяем исходные коррелированные переменные некоррелированными дискриминантами без потери дискриминантной силы. Поскольку каждый следующий дискриминант все слабее и слабее, мы можем принять небольшое подмножество первого $\bf{S_w^{-1} S_b}$ $min(p,k-1)$ $m$ дискриминанты без большой потери дискриминирующей силы (опять же, аналогично тому, как мы используем PCA). Это сущность LDA как метода уменьшения размерности (LDA - также метод классификации Байеса, но это совершенно отдельная тема).

Таким образом, LDA напоминает PCA. PCA разлагает «корреляцию», LDA разлагает «отделенность». В LDA, так как выше матрица выражения «разделенности» не является симметричной, обводным алгебраическим трюком используются для нахождения его собственных значений и собственных векторов . Собственное значение каждой дискриминантной функции (латентная переменная) является дискриминационным мощность Я говорил о том, в первом абзаце. Кроме того, стоит отметить, что дискриминанты, хотя и некоррелированные, не являются геометрически ортогональными, как оси, нарисованные в исходном пространстве переменных. $^1$ $B/W$

Некоторые потенциально связанные темы, которые вы можете прочитать:

LDA - это MANOVA, «углубленная» в анализ латентной структуры и являющаяся частным случаем канонического корреляционного анализа (точная эквивалентность между ними как таковая ). Как LDA классифицирует объекты и каковы коэффициенты Фишера. (Я ссылаюсь только на свои собственные ответы, поскольку я их помню, но на этом сайте также есть много хороших и лучших ответов от других людей).

Расчеты фазы извлечения LDAследующие. Собственные значения ( ) для такие же, как и у симметричной матрицы , где -корень Холецкогоиз : верхнетреугольная матрица, в которой . Что касается собственных векторов , они задаются формулой $^1$ $\bf L$ $\bf{S_w^{-1} S_b}$ $\bf{(U^{-1})' S_b U^{-1}}$ $\bf U$ $\bf{S_w}$ $\bf{U'U=S_w}$ $\bf{S_w^{-1} S_b}$ , где - собственные векторы вышеуказанной матрицы . (Примечание: , будучи треугольным,можно инвертировать- используя язык низкого уровня - быстрее, чем используя стандартную универсальную функцию пакетов inv).) $\bf{V=U^{-1} E}$ $\bf E$ $\bf{(U^{-1})' S_b U^{-1}}$ $\bf U$

Описанный метод обхода собственного разложения реализован в некоторых программах (например, в SPSS), в то время как в других программах реализован метод «квази-отбеливания», который немного медленнее. , дает те же результаты и описано в другом месте . Суммируя его здесь: получить ZCA отбеливание матрицы для - симметричные кв корень. (что делается через eigendecomposition); затем eigendecomposition из $\bf{S_w^{-1} S_b}$ $\bf{S_w}$ $\bf S_w^{-1/2}$ (который является симметричной матрицей) дает дискриминантные собственные значенияи собственные векторы,результате чего дискриминантные собственных векторов. Метод «квази-отбеливания» можно переписать так, чтобы он выполнялся путем разложения по наборам данных по сингулярным значениям вместо работы сматрицами рассеянияи; это добавляет вычислительную точность (что важно в ситуации почти сингулярности), но жертвует скоростью. $\bf S_w^{-1/2} S_b S_w^{-1/2}$ $\bf L$ $\bf A$ $\bf V= S_w^{-1/2} A$ $\bf S_w$ $\bf S_b$

Хорошо, давайте обратимся к статистике, обычно вычисляемой в LDA. Канонические корреляции, соответствующие собственным значениям: . Принимая во внимание, что собственное значение дискриминанта являетсяANOVA этого дискриминанта, квадрат канонической корреляции равен(T = общая сумма квадратов) этого ANOVA. $\bf \Gamma = \sqrt{L/(L+1)}$ $B/W$ $B/T$

Если вы нормализуете (до SS = 1) столбцы собственных векторов то эти значения можно рассматривать как направляющие косинусы вращения осей-переменных в оси-дискриминанты; поэтому с их помощью можно построить дискриминанты в виде осей на диаграмме рассеяния, определенных исходными переменными (собственные векторы, как оси в пространстве этих переменных, не ортогональны). $\bf V$

Нестандартные дискриминантные коэффициенты или веса - это просто масштабированные собственные векторы . Это коэффициенты линейного предсказания дискриминантов по центру исходных переменных. Значения самих дискриминантных функций (оценки дискриминантов) равны, где- центрированные исходные переменные (входные многомерные данные с центром в каждом столбце). Дискриминанты некоррелированы. И когда они вычисляются по приведенной выше формуле, они также обладают тем свойством, что их объединенная ковариационная матрица внутри класса является единичной матрицей. $\bf {C}= \it \sqrt{N-k} ~\bf V$ $\bf XC$ $\bf X$

Необязательные постоянные члены, сопровождающие нестандартные коэффициенты и позволяющие децентрировать дискриминанты, если входные переменные имели ненулевое среднее значение, представляют собой , где - это диагональная матрица средних значений p-переменных и - сумма переменных. $\bf {C_0} \it = -\sum^p diag(\bar{X}) \bf C$ $diag(\bar{X})$ $\sum^p$

$\bf {K} \it = \sqrt{diag \bf (S_w)} \bf V$ $\bf S_w$

$\bf R= \it diag \bf (S_w)^{-1} \bf S_w V$

Смотрите полный вывод фазы экстракции дискриминантного анализа радужки данных здесь .

Прочитайте этот хороший ответ позже, который объясняет немного более формально и детализирует те же вещи, что и я здесь.

Этот вопрос касается вопроса стандартизации данных перед выполнением LDA.

— ttnphns
источник

X

$X$

Да. Однако слово «подход Фишера» неоднозначно. Это может означать 2 вещи: 1) LDA (для 2 -х классов) сам по себе ; 2) Функции классификации Фишера в LDA.

— ttnphns