Как AdamO предлагает в вышеприведенном комментарии, вы не можете добиться большего успеха, чем читать главу 4 «Элементы статистического обучения» (которую я буду называть HTF), в которой сравнивается LDA с другими методами линейной классификации, приводится много примеров, а также обсуждается использование LDA как метод уменьшения размеров в духе PCA, который, как указывает ttnphns, довольно популярен.
С точки зрения классификации, я думаю, что ключевое отличие заключается в следующем. Представьте, что у вас есть два класса, и вы хотите их разделить. Каждый класс имеет функцию плотности вероятности. Наилучшей возможной ситуацией было бы, если бы вы знали эти функции плотности, потому что тогда вы могли бы предсказать, к какому классу будет принадлежать точка, оценивая специфичные для класса плотности в этой точке.
Некоторые виды классификаторов работают, находя приближение к функциям плотности классов. LDA является одним из них; это делает предположение, что плотности многомерные нормальные с той же ковариационной матрицей. Это сильное предположение, но если оно приблизительно верно, вы получите хороший классификатор. Многие другие классификаторы также используют такой подход, но стараются быть более гибкими, чем предполагать нормальность. Например, см. Страницу 108 HTF.
С другой стороны, на странице 210 HTF предупреждает:
Если классификация является конечной целью, то изучение плотности отдельных классов может быть ненужным и может фактически вводить в заблуждение.
Другой подход заключается в простом поиске границы между двумя классами, что и делает персептрон. Более сложной версией этого является машина опорных векторов. Эти методы также можно комбинировать с добавлением функций к данным, используя метод, называемый ядризацией. Это не работает с LDA, потому что это не сохраняет нормальность, но это не проблема для классификатора, который просто ищет разделяющую гиперплоскость.
Разница между LDA и классификатором, который ищет разделяющую гиперплоскость, подобна разнице между t-тестом и некоторой непараметрической альтернативой в обычной статистике. Последний является более устойчивым (например, к выбросам), но первый является оптимальным, если его предположения выполнены.
Еще одно замечание: возможно, стоит упомянуть, что у некоторых людей могут быть культурные причины для использования таких методов, как LDA или логистическая регрессия, которые могут принудительно выбрасывать таблицы ANOVA, тесты гипотез и обнадеживать подобные вещи. LDA был изобретен Фишером; Первоначально перцептрон был моделью для нейрона человека или животного и не имел отношения к статистике. Это также работает по-другому; некоторые люди могут предпочесть такие методы, как машины опорных векторов, потому что у них есть своего рода ультрасовременный кредит, которому методы двадцатого века просто не могут соответствовать. Это не значит, что они лучше. (Хороший пример этого обсуждается в « Машинном обучении для хакеров» , если я правильно помню.)