Можем ли мы использовать категориальную независимую переменную в дискриминантном анализе?

15

В дискриминантном анализе зависимая переменная является категориальной, но могу ли я использовать категориальную переменную (например, статус проживания: сельский, городской) вместе с некоторой другой непрерывной переменной в качестве независимой переменной в линейном дискриминантном анализе?

— kuwoli
источник

Подобный вопрос

— ttnphns

14

Дискриминантный анализ предполагает многомерное нормальное распределение, потому что то, что мы обычно считаем предикторами, действительно является многомерной зависимой переменной, а группирующая переменная считается предиктором. Это означает, что категориальные переменные, которые должны рассматриваться как предикторы в том смысле, в каком вы хотите, не обрабатываются должным образом. Это одна из причин, по которой многие, в том числе и я, считают, что дискриминационный анализ устарел из-за логистической регрессии. Логистическая регрессия не делает каких-либо распределительных предположений ни в левой, ни в правой части модели. Логистическая регрессия является моделью прямой вероятности и не требует использования правила Байеса для преобразования результатов в вероятности, как это делает дискриминантный анализ.

— Фрэнк Харрелл
источник

Спасибо мистер Фрэнк Харрелл за ваш ответ. На самом деле я хочу сравнить результаты анализа дискриминации и логистической регрессии (модель логита), используя тот же набор переменных. Итак, для этой цели, если мне нужно использовать категориальные переменные в дискриминантном анализе в качестве независимой переменной, тогда есть ли способ?

— Куволи

6

Краткий ответ скорее нет, чем да.

Одно предварительное примечание. Трудно сказать, следует ли называть переменные, которые сами производят дискриминантные функции, «независимыми» или «зависимыми». LDA является в основном частным случаем канонического корреляционного анализа, и, следовательно, является двунаправленным. Его можно рассматривать как MANOVA (с переменной класса в качестве независимого фактора) или, когда класс дихотомичен, как линейную регрессию класса в качестве зависимой переменной. Поэтому не совсем законно всегда противопоставлять LDA однонаправленной регрессии, такой как логистическая.

LDA предполагает, что переменные (те, которые вы назвали «независимыми») происходят из многомерного нормального распределения, следовательно - все они непрерывны. Это предположение важно для (1) стадии классификации LDA и (2) тестирования значимости дискриминантов, полученных на стадии экстракции. Само извлечение дискриминантов не нуждается в допущении.

Однако LDA довольно устойчиво к нарушению предположения, которое иногда рассматривается как гарантия сделать это на двоичных данных. На самом деле, некоторые люди делают это. Канонические корреляции (из которых LDA представляет собой особый случай) могут быть выполнены, когда оба набора состоят из двоичных или даже фиктивных двоичных переменных. Еще раз, нет проблем с извлечением скрытых функций; проблемы с таким приложением потенциально могут возникнуть при вызове p-значений или классифицирующих объектов.

Из двоичных / порядковых переменных можно вычислить тетрахорические / полихорические корреляции и передать их в LDA (если программа позволяет вводить матрицы корреляций вместо данных); но тогда вычисление дискриминантных баллов на уровне случая будет проблематичным.

Более гибкий подход заключался бы в превращении категориальных (порядковых, номинальных) переменных в непрерывные путем оптимального масштабирования / количественного определения . Нелинейный канонический корреляционный анализ (ОБЗОРЫ). Это будет сделано в рамках задачи максимизации канонических корреляций между двумя сторонами (переменная класса и категориальные «предикторы»). Затем вы можете попробовать LDA с преобразованными переменными.

(Полиномиальная или бинарная) логистическая регрессия может быть другой альтернативой LDA.

— ttnphns
источник

Это гораздо более сложный процесс, чем просто использование модели, предназначенной для данной ситуации (логистическая регрессия). Дискриминантный анализ не так надежен, как думают некоторые. Легко показать с помощью одного категориального предиктора, который является двоичным, что апостериорные вероятности формы da не очень точны (например, предсказать вероятность события с учетом пола субъекта).

— Фрэнк Харрелл