Байесовский прогноз вероятности принадлежности к последнему классу LDA также следует логистической кривой.
[Эфрон Б. Эффективность логистической регрессии по сравнению с обычным дискриминантным анализом, J Am Stat Assoc, 70, 892-898 (1975).]
Хотя этот документ показывает, что относительная эффективность LDA превосходит LR, если допущения LDA соблюдены (см. Статью Efron выше, последнее замечание @tthnps), в соответствии с Элементами статистического обучения на практике практически нет различий.
[Хасти, Т. и Тибширани, Р. и Фридман, Дж. Элементы статистического обучения; Интеллектуальный анализ данных, вывод и прогноз Springer Verlag, Нью-Йорк, 2009]
Это чрезвычайно повышенная относительная эффективность LDA в основном происходит в асимптотических случаях, когда абсолютная ошибка в любом случае практически ничтожна.
[Харрелл, Ф. Э. и Ли, К. Л. Сравнение различения дискриминантного анализа и логистической регрессии при многомерной нормальности, Биостатистика: статистика в биомедицинских, здравоохранительных и экологических науках, 333-343 (1985).]
Хотя на практике я сталкивался с ситуациями большой выборки с небольшим размером выборки, в которых LDA выглядит лучше (несмотря на то, что предположения о многомерной нормальности и равной ковариационной матрице явно не соблюдаются).
[ Beleites, C .; Гейгер, К .; Кирш, М .; Соботтка С.Б .; Schackert, G. & Salzer, R. Raman, спектроскопическая классификация тканей астроцитомы: с использованием мягкой справочной информации., Anal Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]
Но обратите внимание, что в нашей статье LR, возможно, борется с проблемой, что можно найти направления с (почти) идеальной отделимостью. LDA, с другой стороны, может быть менее серьезным переоснащением.
Знаменитые предположения относительно LDA нужны только для доказательства оптимальности. Если они не выполняются, процедура все равно может быть хорошей эвристикой.
Разница, которая важна для меня на практике, потому что проблемы классификации, над которыми я иногда / часто работаю, на самом деле оказываются совсем не такими очевидными проблемами классификации: LR можно легко сделать с данными, где ссылка имеет промежуточные уровни членства в классе. В конце концов, это техника регрессии .
[см. ссылку выше]
Вы можете сказать, что LR концентрируется больше, чем LDA, на примерах вблизи границы класса и в основном игнорирует случаи на «обратной стороне» распределений.
Это также объясняет, почему он менее чувствителен к выбросам (т. Е. На задней стороне), чем LDA.
(машины опорных векторов были бы классификатором, который идет в этом направлении до самого конца: здесь все, кроме случаев на границе, не учитывается)