Как LDA, метод классификации, также служит методом уменьшения размерности, как PCA

В этой статье автор связывает линейный дискриминантный анализ (LDA) с анализом главных компонентов (PCA). С моими ограниченными знаниями я не могу понять, как LDA может быть чем-то похожим на PCA.

Я всегда думал, что LDA - это форма алгоритма классификации, похожая на логистическую регрессию. Я буду признателен за помощь в понимании того, как LDA похож на PCA, то есть как это техника уменьшения размерности.

— Виктор
источник

Неправильно называть LDA только техникой классификации. Это сложный двухэтапный метод: сначала уменьшите размерность, затем классифицируйте. Как уменьшение размерности, это контролируется, в отличие от PCA. В качестве классификации он рассматривает предельную вероятность, в отличие от логистической регрессии.

— ttnphns

Наиболее четко использовать термин «уменьшение размерности», чтобы иметь дело только с неконтролируемыми методами обучения, например, кластеризацией и анализом избыточности. LDA строго контролируется обучением, поэтому создаст перекос, если его использовать на первом этапе сокращения данных.

— Фрэнк Харрелл

Более старый очень похожий вопрос: stats.stackexchange.com/q/22884/3277 .

— ttnphns

Фрэнк, различные стратегии, например, выбора функций, могут быть применены на первом этапе LDA (включая пошаговый подход, противный вам :-).

— ttnphns

Как я отметил в комментарии к вашему вопросу, дискриминантный анализ - это сложная процедура, состоящая из двух отдельных этапов - уменьшение размерности (контролируемое) и этап классификации. При уменьшении размерности мы выделяем дискриминантные функции, которые заменяют исходные объясняющие переменные. Затем мы классифицируем (обычно с помощью байесовского подхода) наблюдения для классов, использующих эти функции.

Некоторые люди, как правило, не понимают эту четкую двухэтапную природу LDA просто потому, что они познакомились только с LDA с 2 классами (так называемый дискриминантный анализ Фишера ). В таком анализе существует только одна дискриминантная функция, и классификация проста, и поэтому все может быть объяснено в учебнике за один «проход» без привлечения понятий сокращения пространства и байесовской классификации.

LDA тесно связано с MANOVA. Последняя является «поверхностной и широкой» стороной (многомерной) линейной модели, в то время как ее «глубинной и сфокусированной» картиной является канонический корреляционный анализ (CCA). Дело в том, что корреляция между двумя многомерными наборами переменных не является одномерной и объясняется несколькими парами «скрытых» переменных, называемых каноническими переменными.

$k-1$ $k$

В CCA мы рассматриваем два коррелированных набора переменных X и Y как равные по правам. Поэтому мы извлекаем канонические переменные с обеих сторон, и они образуют пары: варьируют 1 из множества X и 1 из множества Y с максимальной коронарной корреляцией между ними; затем измените 2 из набора X и измените 2 из набора Y с меньшей канонической корреляцией и т. д. В LDA нас обычно не интересует численно канонические изменения со стороны набора классов; мы, однако, интересуемся каноническими вариациями со стороны объяснительного множества. Они называются каноническими дискриминантными функциями или дискриминантами .

$p$ $k$ $min(k-1,p)$ смотри ).

Повторюсь, это на самом деле CCA по своей природе. LDA с 3+ классами даже называют «каноническим LDA». Несмотря на то, что CCA и LDA, как правило, реализованы алгоритмически несколько по-разному, с точки зрения эффективности программы они «одинаковы» достаточно, чтобы можно было пересчитать результаты (коэффициенты и т. Д.), Полученные в одной процедуре, в результаты, полученные в другой. Большая часть специфики LDA лежит в области кодирования категориальных переменных, представляющих группы. Это та же самая дилемма, которая наблюдается в (M) ANOVA. Различные схемы кодирования приводят к различным способам интерпретации коэффициентов.

Поскольку LDA (как уменьшение размерности) можно понимать как частный случай CCA, вам определенно необходимо изучить этот ответ, сравнивая CCA с PCA и регрессией. Суть в том, что CCA, в некотором смысле, ближе к регрессии, чем к PCA, потому что CCA является контролируемой техникой (скрытая линейная комбинация вытягивается для корреляции с чем-то внешним), а PCA - нет (скрытая линейная комбинация рисуется подвести итоги внутреннего). Это две ветви уменьшения размерности.

Когда дело доходит до математики, вы можете обнаружить, что, хотя дисперсии главных компонентов соответствуют собственным значениям облака данных (ковариационная матрица между переменными), дисперсии дискриминантов не столь четко связаны с теми собственными значениями, которые создаются в LDA. Причина в том, что в LDA собственные значения не суммируют форму облака данных; скорее они относятся к абстрактной величине отношения между классами к изменениям внутри класса в облаке.

Итак, главные компоненты максимизируют дисперсию, а дискриминанты максимизируют разделение классов; простой случай, когда ПК не может достаточно хорошо различать классы, а дискриминант - это эти картинки. При отображении в виде линий в оригинальном пространстве признаков дискриминанты обычно не выглядят ортогональными (тем не менее, будучи некоррелированными), но ПК это делают.

Сноска для дотошного. Как, по их результатам, LDA в точности связано с CCA . Повторим: если вы выполняете LDA с pпеременными и kклассами и делаете CCA с Set1 в качестве этих pпеременных и Set2 в качестве k-1фиктивных переменных-индикаторов, представляющих группы (на самом деле, не обязательно переменные-индикаторы - другие типы контрастных переменных, такие как отклонение или Хелмерт), будут делать ), то результаты эквивалентны в отношении канонических переменных, извлеченных для Set1 - они непосредственно соответствуют дискриминантным функциям, извлеченным в LDA. Каковы точные отношения, хотя?

$j$ $j$

$\frac {\text {CCA standardized coefficient}}{\text {LDA raw coefficient}} = \frac {\text {CCA canonical variate value}}{\text {LDA discriminant value}} = \sqrt \frac {\text {pooled within class variance in the variate }}{\text {pooled within class variance in the discriminant}}$

n-1 $1$

\sqrt{объединены в пределах дисперсии класса в переменной}

$\sqrt {\text {pooled within class variance in the variate}}$

st. deviation of the discriminant

$\text {st. deviation of the discriminant}$

σ

$\sigma$

Разница между CCA и LDA заключается в том, что LDA «знает», что существуют классы (группы): вы непосредственно указываете группы для вычисления внутри и между матрицами рассеяния. Это ускоряет вычисления и делает результаты более удобными для последующей классификации по дискриминантам. CCA, с другой стороны, не знает о классах и обрабатывает данные, как если бы они все были непрерывными переменными - что является более общим, но более медленным способом вычисления. Но результаты эквивалентны, и я показал, как.

До сих пор подразумевалось, что k-1манекены вводятся CCA типичным способом, то есть центрируются (подобно переменным Set1). Кто-то может спросить : можно ли ввести все kманекены и не центрировать их (чтобы избежать сингулярности)? Да, это возможно, хотя, вероятно, менее удобно. Появятся дополнительные канонические переменные с нулевым собственным значением, коэффициенты для них должны быть выброшены. Другие результаты остаются в силе. За исключением df s для проверки значимости канонических корреляций. Df для 1-й корреляции будет p*kнеправильным, а истинный df, как в LDA, будет p*(k-1).

— ttnphns
источник