Линейный дискриминантный анализ и правило Байеса: классификация

Какова связь между линейным дискриминантным анализом и правилом Байеса? Я понимаю, что LDA используется в классификации, пытаясь минимизировать соотношение внутри групповой дисперсии и между групповой дисперсией, но я не знаю, как в ней используется правило Байеса.

classification discriminant-analysis bayes

— zca0
источник

Дискриминантные функции извлекаются таким образом, чтобы максимизировать вариацию между группами к коэффициентам вариаций внутри группы. Это не имеет ничего общего с классификацией, которая является вторым и отдельным этапом LDA.

— ttnphns

Классификация в LDA идет следующим образом (подход правила Байеса). [О выделении дискриминантов можно посмотреть здесь .]

Согласно теореме Байеса, искомая вероятность того, что мы имеем дело с классом при наблюдении текущей точки равна , где $k$ $x$ $P(k|x) = P(k)*P(x|k) / P(x)$

$P(k)$ - безусловная (фоновая) вероятность класса ; - безусловная (фоновая) вероятность точки ; - вероятность присутствия точки в классе , если класс, с которым ведется работа, равен . $k$ $P(x)$ $x$ $P(x|k)$ $x$ $k$ $k$

«Наблюдение текущей точки » является базовым условием, , и поэтому знаменатель может быть опущен. Таким образом, . $x$ $P(x)=1$ $P(k|x) = P(k)*P(x|k)$

$P(k)$ - предварительная (доаналитическая) вероятность того, что нативный класс для равен ; определяется пользователем. Обычно по умолчанию все классы получают равные = 1 / number_of_classes. Чтобы вычислить , то есть апостериорную (постаналитическую) вероятность того, что нативный класс для равен , нужно знать . $x$ $k$ $P(k)$ $P(k)$ $P(k|x)$ $x$ $k$ $P(x|k)$

$P(x|k)$ - вероятность как таковая - не может быть найдена, для дискриминантов, основной проблемой LDA, являются непрерывные, а не дискретные переменные. Величина, выражающая в этом случае и пропорциональная ей, является плотностью вероятности (функция PDF). Таким образом, нам нужно вычислить PDF для точки в классе , , в мерном нормальном распределении, образованном значениями дискриминантов. [См. Wikipedia Multivariate нормальное распределение] $P(x|k)$ $x$ $k$ $PDF(x|k)$ $p$ $p$

P D F (x | k) = \frac{e^{- d / 2}}{(2 π)^{p / 2} \sqrt{| S |})}

$PDF(x|k) = \frac {e^{-d/2}} {(2\pi)^{p/2}\sqrt{\bf |S|})}$

где - расстояние Махаланобиса в квадрате [см. расстояние Махаланобиса из Википедии] в пространстве дискриминантов от точки до центроида класса; - ковариационная матрица между дискриминантами , наблюдаемыми в этом классе. $d$ $x$ $\bf S$

Вычислите таким образом для каждого из классов. для точки и класса выражает искомое для нас. Но с указанным выше резервом, что PDF не является вероятностью как таковой, а только пропорциональной, мы должны нормализовать , разделив на сумму с над всеми классами. Например, если всего 3 класса, , , , то $PDF(x|k)$ $P(k)*PDF(x|k)$ $x$ $k$ $P(k)*P(x|k)$ $P(k)*PDF(x|k)$ $P(k)*PDF(x|k)$ $k$ $l$ $m$

Точка назначается LDA классу, для которого является самым высоким. $x$ $P(k|x)$

Заметка. Это был общий подход. Многие программы LDA по умолчанию используют объединенную матрицу классов для всех классов в формуле для PDF выше. Если это так, формула значительно упрощается, потому что такой в LDA является единичной матрицей (см. Нижнюю сноску здесь ), и, следовательно, и превращается в квадрат евклидова расстояния (напоминание: объединенный в классе мы говорим, это ковариации между дискриминантами, а не между входными переменными, матрица которых обычно обозначается как ). $\bf S$ $\bf S$ $\bf |S|=1$ $d$ $\bf S$ $\bf S_w$

Дополнение . До того, как в LDA был представлен подход правила Байеса к классификации, Фишер, пионер LDA, предложил вычислить теперь так называемые функции линейной классификации Фишера для классификации точек в LDA. Для точки оценка функции принадлежности к классу является линейной комбинацией , где - переменные предиктора в анализе. $x$ $k$ $b_{kv1}V1_x+b_{kv2}V2_x+...+Const_k$ $V1, V2,...V_p$

Коэффициент , где - количество классов, а - элемент объединенного рассеяния внутри класса матрица переменных. $b_{kv}=(n-g)\sum_w^p{s_{vw}\bar{V}_{kw}}$ $g$ $s_{vw}$ $p$ $V$

$Const_k=\log(P(k))-(\sum_v^p{b_{kv}\bar{V}_{kv}})/2$ .

Точка присваивается классу, для которого его оценка является самой высокой. Результаты классификации, полученные этим методом Фишера (который обходит извлечение дискриминантов, вовлеченных в сложное собственное разложение), идентичны результатам, полученным методом Байеса, только если объединенная ковариационная матрица внутри класса используется с методом Байеса, основанным на дискриминантах (см. «Примечание»). выше) и все дискриминанты используются в классификации. Метод Байеса является более общим, поскольку позволяет также использовать отдельные матрицы внутри класса. $x$

— ttnphns
источник

Это Байесовский подход, верно? Каков подход Фишера к этому?

— zca0

Добавлено к ответу по вашему запросу

— ttnphns

+1 за различие между подходом Байеса и Фишера к LDA. Я новичок в LDA, и книги, которые я читаю, учат меня LDA в подходе Байеса, который классифицирует как класс с самым высоким , поэтому я должен вычислить все для каждого класса , верно? Подход Фишера, мне просто нужно выяснить дискриминанты и их соответствующие коэффициенты, и нет необходимости вычислять апостериорный для каждого класса, верно?

X

$X$

K

$K$

p (K | X)

$p(K|X)$

p (K | X)

$p(K|X)$

K

$K$

— авокадо

И я думаю, что байесовский подход более понятен, и почему мы должны использовать подход Фишера?

— авокадо

Нам не нужно. Просто для исторического вопроса.

— ttnphns

Предположим, равные веса для двух типов ошибок в задаче двух классов. Предположим, что эти два класса имеют многомерный класс условной плотности классификационных переменных. Тогда для любого наблюдаемого вектора и класса условных плотностей и правило Байеса классифицирует как принадлежащее группе 1, если и как класс 2 в противном случае. Байесовское правило оказывается линейным дискриминантным классификатором, если и $x$ $f_1(x)$ $f_2(x)$ $x$ $f_1(x) \geq f_2(x)$ $f_1$ $f_2$ оба многовариантные нормальные плотности с той же ковариационной матрицей. Конечно, чтобы иметь возможность различать средние векторы, они должны быть разными. Хорошую презентацию этого можно найти в Duda и Hart Pattern Classification and Scene Analysis 1973 (книга была недавно пересмотрена, но мне особенно нравится презентация в оригинальном издании).

— Майкл Р. Черник
источник