Когда вы будете использовать PCA, а не LDA в классификации?


10

Я читаю эту статью о разнице между Принципиальным компонентным анализом и множественным дискриминантным анализом (линейный дискриминантный анализ) и пытаюсь понять, почему вы когда-либо использовали PCA вместо MDA / LDA.

Объяснение сводится к следующему:

Грубо говоря, в PCA мы пытаемся найти оси с максимальными отклонениями, где данные наиболее распространены (в пределах класса, поскольку PCA рассматривает весь набор данных как один класс), а в MDA мы дополнительно максимизируем разброс между классами.

Разве вы не хотите всегда максимизировать дисперсию и максимизировать разброс между классами?


1
извините, я имел в виду множественный дискриминантный анализ, который, кажется, также называют множественным линейным дискриминантным анализом
chris

1
Вы должны уточнить свой вопрос, потому что на данный момент это тривиально: вы должны предпочесть PCA, а не MDA, когда в ваших данных нет классов, которые можно было бы различить. Я думаю, вы должны указать это о классификации в вопросе.
Firebug

1
LDA - гораздо более распространенный термин, чем MDA. Нет необходимости говорить «несколько линейных», достаточно «линейных».
амеба

Ответы:


11

Вам не хватает чего-то более глубокого: PCA не является методом классификации.

PCA в машинном обучении рассматривается как метод проектирования функций. Когда вы применяете PCA к своим данным, вы гарантируете, что между полученными функциями не будет никакой корреляции. Многие алгоритмы классификации выигрывают от этого.

Вы всегда должны иметь в виду, что алгоритмы могут иметь допущения в отношении данных, и если такие допущения не выполняются, они могут оказаться неэффективными.

LDA должен вычислить инверсию ковариационной матрицы для проецирования данных (проверьте эти потоки и ответы: следует ли выполнять PCA перед выполнением классификации? И имеет ли смысл объединять PCA и LDA? ). Если у вас мало данных, это нестабильно, и вы получаете переопределенные проекции к вашим точкам данных, то есть особую ковариационную матрицу внутри класса. PCA обычно используется, чтобы избежать этого, уменьшая размерность проблемы.

Таким образом, ответ заключается в том, что вы никогда не используете PCA для проведения классификации, но вы можете использовать его для улучшения производительности LDA.


7

Принимая во внимание, что предыдущий ответ Firebug является правильным, я хочу добавить другую точку зрения:

Неконтролируемое и контролируемое обучение:

LDA очень полезен для поиска измерений, которые нацелены на разделение кластеров, поэтому вам придется знать кластеры раньше. LDA не обязательно является классификатором, но может использоваться как единое целое. Таким образом, LDA может использоваться только в контролируемом обучении

PCA - это общий подход к шумоподавлению и уменьшению размерности, который не требует дополнительной информации, такой как ярлыки классов, в контролируемом обучении. Поэтому его можно использовать в обучении без учителя.


2
+1, особенно за LDA is not neccesarily a classifier. Читателю (ОП тоже) рекомендуется прочитать этот связанный вопрос: как LDA, метод классификации, также служит методом уменьшения размерности, как PCA .
ttnphns 20.09.16

и ответы здесь сравнивают результаты и графики LDA и PCA как тусклые. сокращения.
ttnphns 20.09.16

(+1) LDA - это действительно метод уменьшения размерности, обобщение линейного дискриминанта Фишера, которое люди обычно рассматривают как критерий классификации.
Firebug

2

LDA используется для разделения многомерного пространства.

PCA используется для разрушения многомерного пространства.

Например: 3D объекты отбрасывают 2D тени. PCA часто позволяет нам объединять сотни пространственных измерений в несколько меньших пространственных измерений, сохраняя при этом 70% - 90% важной информации.

Как я могу видеть размер и форму вашей руки по ее тени. Я не могу рассказать вам все о форме вашей руки. Но имея коллекцию из 3 или 4 теней от оптимальных известных углов. Тогда я мог бы рассказать вам больше о размере и форме руки.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.