Дискриминантный анализ против логистической регрессии


16

Я нашел некоторые плюсы дискриминантного анализа, и у меня есть вопросы о них. Так:

Когда классы хорошо разделены, оценки параметров для логистической регрессии удивительно нестабильны. Коэффициенты могут уходить в бесконечность. LDA не страдает от этой проблемы.

Если число признаков мало и распределение предикторов Икс приблизительно нормальное в каждом из классов, линейная дискриминантная модель снова более стабильна, чем модель логистической регрессии.

  1. Что такое стабильность и почему это важно? (Если логистическая регрессия обеспечивает хорошее соответствие, которое выполняет свою работу, то почему я должен заботиться о стабильности?)

LDA популярно, когда у нас более двух классов ответов, поскольку оно также обеспечивает низкоразмерные представления данных.

  1. Я просто не понимаю этого. Как LDA обеспечивает низкоразмерные представления?
  2. Если бы вы могли назвать больше плюсов или минусов, это было бы неплохо.

3
Вы также можете прочитать другие вопросы и ответы по этой теме (lda vs logistic). Пожалуйста, найдите этот сайт.
ttnphns

Ответы:


13

Когда классы хорошо разделены, оценки параметров для логистической регрессии удивительно нестабильны. Коэффициенты могут уходить в бесконечность. LDA не страдает от этой проблемы.

Если есть ковариатные значения, которые могут точно предсказать бинарный результат, то алгоритм логистической регрессии, то есть оценка Фишера, даже не сходится. Если вы используете R или SAS, вы получите предупреждение о том, что вероятности равны нулю и единице, и что алгоритм потерпел крах. Это крайний случай идеального разделения, но даже если данные разделены только в значительной степени и не идеально, оценка максимального правдоподобия может не существовать, и даже если она существует, оценки не являются надежными. Полученная посадка не очень хорошая. На этом сайте много тем, посвященных проблеме разделения, поэтому обязательно посмотрите.

Напротив, с дискриминантом Фишера не часто возникают проблемы с оценкой. Это все еще может произойти, если между или внутри ковариационной матрицы сингулярно, но это довольно редкий случай. На самом деле, если есть полное или почти полное разделение, тогда все будет лучше, потому что дискриминант с большей вероятностью будет успешным.

Стоит также отметить, что вопреки распространенному мнению, LDA не основывается на каких-либо предположениях о распространении. Мы только неявно требуем равенства ковариационных матриц населения, так как для внутренней ковариационной матрицы используется объединенная оценка. При дополнительных допущениях нормальности, равных априорных вероятностей и затрат на неправильную классификацию, LDA является оптимальным в том смысле, что минимизирует вероятность ошибочной классификации.

Как LDA обеспечивает низкоразмерные представления?

Это легче увидеть в случае двух групп населения и двух переменных. Вот графическое представление того, как LDA работает в этом случае. Помните, что мы ищем линейные комбинации переменных, которые максимизируют отделимость. введите описание изображения здесь

Следовательно, данные проецируются на вектор, направление которого лучше достигает этого разделения. То, как мы находим этот вектор, является интересной проблемой линейной алгебры, мы в основном максимизируем фактор Рэлея, но давайте пока оставим это в стороне. Если данные проецируются на этот вектор, размерность уменьшается с двух до одного.

пграмм мин(грамм-1,п)

Если бы вы могли назвать больше плюсов или минусов, это было бы неплохо.

Тем не менее, низкоразмерное представление не лишено недостатков, самым важным из которых, конечно же, является потеря информации. Это меньше проблем, когда данные линейно разделимы, но если они не являются, потеря информации может быть существенной, и классификатор будет работать плохо.

Также могут быть случаи, когда равенство ковариационных матриц не может быть приемлемым предположением. Вы можете использовать тест, чтобы убедиться, но эти тесты очень чувствительны к отклонениям от нормы, поэтому вам нужно сделать это дополнительное предположение, а также проверить его. Если будет установлено, что популяции нормальны с неравными ковариационными матрицами, вместо этого можно использовать правило квадратичной классификации (QDA), но я считаю, что это довольно неловкое правило, не говоря уже о противоинтуитивности в больших измерениях.

В целом, основным преимуществом LDA является наличие явного решения и удобство вычислений, что не относится к более продвинутым методам классификации, таким как SVM или нейронные сети. Цена, которую мы платим, - это набор допущений, а именно линейная отделимость и равенство ковариационных матриц.

Надеюсь это поможет.

РЕДАКТИРОВАТЬ : Я подозреваю, что мое утверждение о том, что LDA в конкретных случаях, которые я упомянул, не требует каких-либо распределительных допущений, кроме равенства ковариационных матриц, стоило мне снижения. Тем не менее, это не менее верно, поэтому позвольте мне быть более конкретным.

Икс¯я, язнак равно1,2Sобъединенный

Максимумa(aTИкс¯1-aTИкс¯2)2aTSобъединенныйaзнак равноМаксимумa(aTd)2aTSобъединенныйa

Можно показать, что решение этой задачи (с точностью до константы)

aзнак равноSобъединенный-1dзнак равноSобъединенный-1(Икс¯1-Икс¯2)

Это эквивалентно LDA, которое вы получаете в предположении нормальности, равных ковариационных матриц, неправильной классификации и предыдущих вероятностей, верно? Ну да, разве что теперь мы не приняли нормальность.

Ничто не мешает вам использовать вышеупомянутый дискриминант во всех настройках, даже если ковариационные матрицы на самом деле не равны. Он может быть неоптимальным в смысле ожидаемой стоимости ошибочной классификации (ECM), но это обучение под наблюдением, поэтому вы всегда можете оценить его эффективность, используя, например, процедуру задержки.

Ссылки

Епископ, Кристофер М. Нейронные сети для распознавания образов. Издательство Оксфордского университета, 1995.

Джонсон, Ричард Арнольд и Дин Уичерн. Прикладной многомерный статистический анализ. Том 4. Энглвудские скалы, Нью-Джерси: зал Прентис, 1992.


1
(Я не пользователь, который проголосовал против). Чтобы попытаться согласовать ваш ответ с ответом Фрэнка Харелла, мне кажется, что все еще нужно предположить, что все переменные являются непрерывными (в противном случае, я думаю, что максимум коэффициента Рэлея не будет уникальным).
user603 28.12.15

1
@ user603 Я нигде не видел такого состояния. В любом случае решение определяется только до постоянной.
JohnK

Джон, представьте, что существует только 2 класса (и, следовательно, только одна дискриминантная линия), имеющих идентичные, симметричные (эллипсоидальные) распределения и равные априорные вероятности. Тогда нам фактически не нужно предполагать конкретно нормальное распределение, потому что нам не нужен какой-либо pdf-файл, чтобы назначить регистр классу. В более сложных настройках (таких как 3+ классы) мы должны использовать некоторые PDF, и это обычно нормально.
ttnphns

1
W-1ВWВ

1
Джон, твой последний комментарий касается нас с тобой.
ttnphns

10

LDA делает строгие предположения о распределении (многомерная нормальность всех предикторов) в отличие от логистической регрессии. Попробуйте получить последующие вероятности членства в классе на основе пола испытуемых, и вы поймете, что я имею в виду - вероятности не будут точными.

Yзнак равно1β±±30

Смотрите это для получения дополнительной информации.

Заметим, что если выполняется многопараметрическая нормальность, то по теореме Байеса верны условия логистической регрессии. Обратное неверно.

Нормальность (или, по крайней мере, симметрия) должна почти соблюдаться, чтобы вариации и ковариации «выполняли свою работу». Не многовариантные нормально распределенные предикторы даже повредят дискриминантную фазу извлечения.


1
На мой взгляд, нормальность особенно необходима на этапе классификации (прогнозирования класса) LDA. Это не является необходимым на стадии выделения дискриминантов (уменьшения размерности), которая, однако, все еще предполагает однородность дисперсии-ковариации. (Интересно, что последнее предположение может быть несколько освобождено при классификации: вы можете использовать отдельные
внутриклассовые

3
TT

2
T

2
Да, SD делает различные предположения и не является надежным. В меньшей степени среднее делает некоторые предположения значимыми. Наименьших квадратов, PCA, и LDA эффективно сделать более дистрибутивные предположения , чем многие думают.
Фрэнк Харрелл

2
Я не убежден этим рассуждением, и я все еще считаю, что отрицательное голосование было несправедливым, но я не авторитет в этом вопросе. Ссылки, которые я предоставил, скажут вам то же самое.
JohnK 28.12.15

0

Когда классы хорошо разделены, оценки параметров для логистической регрессии удивительно нестабильны. Коэффициенты могут уходить в бесконечность. LDA не страдает от этой проблемы.

Отказ от ответственности: то, что следует здесь, испытывает недостаток в математической строгости полностью.

Для того, чтобы хорошо соответствовать (нелинейной) функции, вам нужны наблюдения во всех областях функции, где «ее форма изменяется». Логистическая регрессия соответствует сигмоидальной функции данных:

введите описание изображения здесь

В случае хорошо разделенных классов все наблюдения попадают на два «конца», где сигмоида приближается к своим асимптотам (0 и 1). Поскольку, так сказать, все сигмоиды «выглядят одинаково» в этих регионах, неудивительно, что алгоритм плохой подгонки будет испытывать трудности с поиском «правильного».

Давайте посмотрим на два (надеюсь, поучительных) примера, рассчитанных с помощью glm()функции R.

Случай 1: две группы частично совпадают:

введите описание изображения здесь

и наблюдения хорошо распределяются вокруг точки перегиба подогнанной сигмовидной кишки:

введите описание изображения здесь

Вот эти параметры с хорошими низкими стандартными ошибками:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

и отклонение тоже выглядит нормально:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

Случай 2: две группы хорошо разделены:

введите описание изображения здесь

и наблюдения все лежат на асимптотах практически. glm()Функция делала все возможное , чтобы соответствовать что - то, но жаловались на числовом 0 или 1 вероятности, потому что просто нет наблюдений , доступных для «получить форму сигмовидной права» вокруг его перегиба точки:

введите описание изображения здесь

Вы можете диагностировать проблему, отметив, что стандартные ошибки оценочных параметров проходят через крышу:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

и в то же время отклонение выглядит подозрительно хорошим (потому что наблюдения хорошо соответствуют асимптотам):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

По крайней мере, интуитивно должно быть ясно из этих соображений, почему «оценки параметров для логистической регрессии удивительно нестабильны».


Посмотрите на ответ @Frank Harrell, который явно не согласен с вами! И изучите его ссылки и ссылки ...
kjetil b halvorsen

@kjetilbhalvorsen Моя главная мысль - интуитивная иллюстрация «удивительно нестабильной» подгонки. Я удалил последнее предложение, ссылаясь на LDA.
Ларикс Децидуа
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.