Как обрабатывать порядковую категориальную переменную как независимую переменную


18

Я использую модель Logit. Моя зависимая переменная является двоичной. Однако у меня есть независимая переменная , которая является категоричным и содержит ответы: 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Итак, это порядковый номер («количественный категориальный»). Я не уверен, как справиться с этим в модели. Я использую gretl.

[Примечание от @ttnphns: хотя в вопросе говорится, что модель является логитной (поскольку зависимая является категориальной), критическая проблема - порядковые независимые переменные - в основном одинаковы, будь то зависимая категориальная или количественная. Поэтому вопрос в равной степени относится, скажем, и к линейной регрессии - как и к логистической регрессии или другой модели логита.]


Моя зависимая переменная принимает значения 0 и 1, у меня есть 6 независимых переменных, 3 из них категориальные, эти переменные похожи на «как вы оцениваете местные медицинские услуги в вашем районе? Как вы оцениваете местный транспорт в вашем районе и как вы оцениваете» Полицейские службы в вашем районе - ответы очень хорошие, хорошие, средние, плохие и очень плохие.
Рахмат

@Tim Если зависимая переменная является двоичной, то нет необходимости в какой-либо порядковой регрессии. Смысл заключается в обработке порядкового предиктора с использованием переменных-индикаторов (фиктивных).
Ник Кокс

спасибо, Тим, если я не ошибаюсь, вы говорите, что я должен создать пустышку для всех категорий ?? например, у меня есть пять ответов (очень хороший, хороший, средний, плохой и очень плохой) для одной независимой переменной, поэтому я должен создать 5 манекенов.
Рахмат

Ответы:


14

Проблема с порядковой независимой переменной состоит в том, что, поскольку по определению истинные метрические интервалы между ее уровнями не известны , никакие подходящие отношения типов - кроме зонтичного "монотонного" - не могут быть приняты априори. Мы должны что-то с этим сделать, например - «экранировать или комбинировать варианты» или «отдавать предпочтение тому, что максимизирует что-то».

Если вы настаиваете на том, чтобы ваш рейтинг Ликерта IV рассматривался как порядковый (а не интервальный или номинальный), у меня есть пара альтернатив для вас.

  1. Используйте полиномиальные контрасты, т.е. каждый такой предиктор, используемый в модели, вводится не только линейно, но также квадратично и кубически. Таким образом, можно уловить не только линейный, но и более общий монотонный эффект (линейный эффект соответствует предиктору, сохраняемому как масштаб / интервал, а два других эффекта воспринимают его как неравные интервалы). Кроме того, могут быть введены манекены каждого предиктора, что будет проверять номинальный / факторный эффект. В конце концов, вы знаете, насколько ваш предиктор действует как фактор, насколько линейная ковариата и насколько нелинейная ковариата. Эту опцию легко реализовать практически в любой регрессии (линейная, логистическая, другие обобщенно-линейные модели). Он будет потреблять df s, поэтому размер выборки должен быть достаточно большим.
  2. Используйте оптимальную регрессию масштабирования . Этот подход монотонно преобразует порядковый предиктор в интервал, чтобы максимизировать линейное влияние на предиктор. CATREG (категориальная регрессия) - это реализация этой идеи в SPSS. Одна из проблем вашего конкретного случая заключается в том, что вы хотите выполнять логистическую, а не линейную регрессию, но CATREG не основан на модели логита. Я думаю, что это препятствие относительно незначительно, так как ваш прогноз - только 2 категории (двоичный): я имею в виду, что вы все равно можете использовать CATREG для оптимального масштабирования, а затем выполнить окончательную логистическую регрессию с открытыми предикторами преобразованной шкалы.
  3. Отметим также, что в простом случае одной шкалы или порядкового DV и одного порядкового IV критерий Джонкира-Терпстры может быть разумным анализом вместо регрессии.

Могут быть и другие предложения. Три вышеперечисленных - это то, что приходит мне в голову, просто мгновенно читая ваш вопрос.

Позвольте мне также порекомендовать вам посетить следующие темы: связь между номинальным и масштабным или порядковым ; Связь между порядковым и масштабным . Они могут быть полезны, несмотря на то, что речь идет не о конкретных регрессиях.

Но эти темы касаются регрессий, особенно логистических: вы должны заглянуть внутрь: раз , два , три , четыре , пять .


(+1) (1) Вы также можете использовать только первые несколько полиномиальных контрастов, если считаете, что их достаточно. (2) Определение предикторов из ответа в том же наборе данных должно сопровождаться предупреждением о работоспособности. (3) Вы также можете штрафовать расхождение между коэффициентами смежных уровней - см. Stats.stackexchange.com/q/77796/17230 .
Scortchi - Восстановить Монику

1
@ Scortchi, спасибо за комментарий. Что касается (2) - да, в частности, конечно, более надежно выполнить оптимальное масштабирование для отдельного подмножества данных, на которых будет выполнена окончательная регрессия. (3) - спасибо, тоже познакомлюсь с этим.
ttnphns

1
Другим вариантом является использование аддитивной модели и представление порядковой независимой переменной через сплайн.
kjetil b halvorsen

2
@kjetilbhalvorsen, да, это возможно, спасибо. Эта опция, однако, уже подразумевается в Pt 2, потому что один из методов оптимального масштабирования для порядковых переменных использует сплайн.
ttnphns

7

Просто чтобы добавить к другим отличным ответам: современный способ обработки может быть через аддитивную модель, представляющую порядковую независимую переменную через сплайн. Если вы абсолютно уверены, что эффект переменной является монотонным, вы можете ограничиться монотонным сплайном. (Пример использования монотонных сплайнов см. В разделе Поиск функции для соответствия сигмоидоподобной кривой ).

В R, если вы делаете порядковый предиктор «упорядоченным множителем» (например, с кодом ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ), то в линейной модели он будет представлен с помощью ортогональных полиномов.


4
Было бы неплохо немного расширить его, чтобы включить еще несколько деталей о том, как он будет работать с порядковыми предикторами.
ttnphns

0

k1k


3
n

1
спасибо Тим и Ник. Поэтому я должен запустить все четыре манекена в регрессии. право? если так, у меня есть 3 категориальные переменные с 5 ответами. следовательно, моя модель будет иметь 12 переменных. право?
Рахмат

1
Спасибо @NickCox - я новичок в мире CV и ценю уважительные исправления
Остин Т

1
К сожалению, вы не объяснили, почему фиктивные переменные вообще понадобятся. Я не чувствую, что этот ответ, как и в настоящее время, выглядит как ответ на вопрос.
ttnphns

2
В поддержку, я не думаю, что это аргумент в пользу того, что необходимы индикаторы ; просто они позволяют захватывать различные эффекты, включая немонотонные отношения.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.