Классификация в LDA идет следующим образом (подход правила Байеса). [О выделении дискриминантов можно посмотреть здесь .]
Согласно теореме Байеса, искомая вероятность того, что мы имеем дело с классом при наблюдении текущей точки равна , гдеx P ( k | x ) = P ( k ) ∗ P ( x | k ) / P ( x )kxP(k|x)=P(k)∗P(x|k)/P(x)
k P ( x ) x P ( x | k ) x k kP(k) - безусловная (фоновая) вероятность класса ; - безусловная (фоновая) вероятность точки ; - вероятность присутствия точки в классе , если класс, с которым ведется работа, равен .kP(x)xP(x|k)xkk
«Наблюдение текущей точки » является базовым условием, , и поэтому знаменатель может быть опущен. Таким образом, .P ( x ) = 1 P ( k | x ) = P ( k ) ∗ P ( x | k )xP(x)=1P(k|x)=P(k)∗P(x|k)
x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )P(k) - предварительная (доаналитическая) вероятность того, что нативный класс для равен ; определяется пользователем. Обычно по умолчанию все классы получают равные = 1 / number_of_classes. Чтобы вычислить , то есть апостериорную (постаналитическую) вероятность того, что нативный класс для равен , нужно знать .xkP(k)P(k)P(k|x)xkP(x|k)
P ( x | k ) x k P D F ( x | k ) p pP(x|k) - вероятность как таковая - не может быть найдена, для дискриминантов, основной проблемой LDA, являются непрерывные, а не дискретные переменные. Величина, выражающая в этом случае и пропорциональная ей, является плотностью вероятности (функция PDF). Таким образом, нам нужно вычислить PDF для точки в классе , , в мерном нормальном распределении, образованном значениями дискриминантов. [См. Wikipedia Multivariate нормальное распределение]P(x|k)xkPDF(x|k)pp
PDF(x|k)=e−d/2(2π)p/2|S|−−−√)
где - расстояние Махаланобиса в квадрате [см. расстояние Махаланобиса из Википедии] в пространстве дискриминантов от точки до центроида класса; - ковариационная матрица между дискриминантами , наблюдаемыми в этом классе.х сdxS
Вычислите таким образом для каждого из классов. для точки и класса выражает искомое для нас. Но с указанным выше резервом, что PDF не является вероятностью как таковой, а только пропорциональной, мы должны нормализовать , разделив на сумму с над всеми классами. Например, если всего 3 класса, , , , тоP ( k ) ∗ P D F ( x | k ) x k P ( k ) ∗ P ( x | k ) P ( k ) ∗ P D F ( x | k ) P ( k) ) ∗ P D F ( x | k ) kPDF(x|k)P(k)∗PDF(x|k)xkP(k)∗P(x|k)P(k)∗PDF(x|k)P(k)∗PDF(x|k)kмlm
P(k|x)=P(k)∗PDF(x|k)/[P(k)∗PDF(x|k)+P(l)∗PDF(x|l)+P(m)∗PDF(x|m)]
Точка назначается LDA классу, для которого является самым высоким.P ( k | x )xP(k|x)
Заметка. Это был общий подход. Многие программы LDA по умолчанию используют объединенную матрицу классов для всех классов в формуле для PDF выше. Если это так, формула значительно упрощается, потому что такой в LDA является единичной матрицей (см. Нижнюю сноску здесь ), и, следовательно, и превращается в квадрат евклидова расстояния (напоминание: объединенный в классе мы говорим, это ковариации между дискриминантами, а не между входными переменными, матрица которых обычно обозначается как ).S | S | = 1 d S S шSS|S|=1dSSw
Дополнение . До того, как в LDA был представлен подход правила Байеса к классификации, Фишер, пионер LDA, предложил вычислить теперь так называемые функции линейной классификации Фишера для классификации точек в LDA. Для точки оценка функции принадлежности к классу является линейной комбинацией , где - переменные предиктора в анализе.k b k v 1 V 1 x + b k v 2 V 2 x + . , , + С о п ы т к V 1 , V 2 , . , , V рxkbkv1V1x+bkv2V2x+...+ConstkV1,V2,...Vp
Коэффициент , где - количество классов, а - элемент объединенного рассеяния внутри класса матрица переменных. g s v w p Vbkv=(n−g)∑pwsvwV¯kwgsvwp V
Constk=log(P(k))−(∑pvbkvV¯kv)/2 .
Точка присваивается классу, для которого его оценка является самой высокой. Результаты классификации, полученные этим методом Фишера (который обходит извлечение дискриминантов, вовлеченных в сложное собственное разложение), идентичны результатам, полученным методом Байеса, только если объединенная ковариационная матрица внутри класса используется с методом Байеса, основанным на дискриминантах (см. «Примечание»). выше) и все дискриминанты используются в классификации. Метод Байеса является более общим, поскольку позволяет также использовать отдельные матрицы внутри класса.x