Я предполагаю, что «категориальная» переменная фактически означает порядковую переменную; в противном случае не имеет смысла рассматривать его как непрерывную, если только это не двоичная переменная (с кодом 0/1), как указано @Rob. Затем я бы сказал, что проблема заключается не столько в том, как мы относимся к переменной, хотя до сих пор разработано много моделей для анализа категориальных данных - см., Например, Анализ упорядоченных категориальных данных: обзор и обзор последних разработки от Liu и Agresti--, чем основную шкалу измерения мы предполагаем. Мой ответ будет сосредоточен на этом втором пункте, хотя сначала я кратко расскажу о присвоении числовых баллов различным категориям или уровням.
Используя простую числовую перекодировку порядковой переменной, вы предполагаете, что переменная имеет интервальные свойства (в смысле классификации, данной Стивенсом, 1946). С точки зрения теории измерений (в психологии), это часто может быть слишком сильным предположением, но для базового исследования (то есть, когда один элемент используется для выражения своего мнения о повседневной деятельности с четкой формулировкой), любые монотонные оценки должны давать сопоставимые результаты. , Кокран (1954) уже указывал, что
любой набор баллов дает действительный
тест при условии, что они построены без учета результатов эксперимента. Если набор баллов плохой, так как он сильно искажает числовую шкалу, которая действительно лежит в основе упорядоченной классификации, тест не будет чувствительным. Таким образом, баллы должны отражать лучшее понимание того, как была построена и использована классификация. (стр. 436)
(Большое спасибо @whuber за то, что он напомнил мне об этом в одном из своих комментариев, что побудило меня перечитать книгу Агрести, из которой взята эта цитата.)
На самом деле, некоторые тесты неявно обрабатывают такие переменные как интервальные шкалы: например, статистика для тестирования линейного тренда (в качестве альтернативы простой независимости) основана на корреляционном подходе ( , Агрести, 2002, стр. 87).M 2 = ( n - 1 ) r 2M2M2= ( n - 1 ) r2
Что ж, вы также можете решить перекодировать вашу переменную в нерегулярном диапазоне или объединить некоторые из ее уровней, но в этом случае сильный дисбаланс между перекодированными категориями может исказить статистические тесты, например, вышеупомянутый тест тренда. @Jeromy уже предложила хорошую альтернативу для определения расстояния между категориями, а именно оптимальное масштабирование.
Теперь давайте обсудим второй момент, который я сделал, это базовая модель измерения. Я всегда сомневаюсь в добавлении тега «psychometrics», когда вижу такой вопрос, потому что построение и анализ шкал измерения подпадают под Psychometric Theory (Nunnally and Bernstein, 1994, для аккуратного обзора). Я не буду останавливаться на всех моделях, которые фактически возглавляются в соответствии с теорией отклика на предмет , и я любезно рекомендую заинтересованному читателю учебник И. Партчева « Визуальное руководство по теории отклика на предмет»., для мягкого введения в IRT, и ссылки (5-8), перечисленные в конце для возможных таксономий IRT. Вкратце, идея заключается в том, что вместо того, чтобы назначать произвольные расстояния между переменными категориями, вы принимаете скрытую шкалу и оцениваете их местоположение в этом континууме вместе со способностями или ответственностью отдельных лиц. Простой пример стоит больших математических обозначений, поэтому давайте рассмотрим следующий пункт ( взятый из опросника качества жизни EORTC QLQ-C30 ):
Вы волновались?
который закодирован по четырехбалльной шкале, от «совсем нет» до «очень». Необработанные баллы вычисляются путем присвоения баллов от 1 до 4. Затем баллы по элементам, принадлежащим к одной и той же шкале, можно сложить вместе, чтобы получить так называемый балл по шкале, который обозначает ранг базовой конструкции (здесь - компонент психического здоровья). ). Такие суммарные баллы по шкале очень практичны из-за легкости начисления баллов (для практикующего врача или медсестры), но они представляют собой не что иное, как дискретную (упорядоченную) шкалу.
Мы также можем считать, что вероятность одобрения данной категории ответов подчиняется некоторой логистической модели, как описано в учебнике И. Партчева, упомянутом выше. По сути, идея заключается в том, чтобы создать своего рода пороговую модель (которая приводит к эквивалентной формулировке в терминах моделей пропорциональных или совокупных шансов), и мы моделируем шансы на то, чтобы быть в одной категории ответа, а не на предыдущей, или шансы на оценку выше определенная категория, обусловленная расположением предметов по скрытой черте. Кроме того, мы можем навязать, что категории ответов равномерно распределены по скрытой шкале (это модель шкалы рейтингов) - так мы поступаем, присваивая регулярно расположенные числовые оценки - или нет (это модель частичного кредита) ,
Ясно, что мы не добавляем слишком много к Классической Теории Тестов, где порядковые переменные рассматриваются как числовые. Тем не менее, мы вводим вероятностную модель, в которой мы принимаем непрерывную шкалу (с интервальными свойствами) и где можно учесть конкретные ошибки измерения, и мы можем включить эти факторные оценки в любую регрессионную модель.
Рекомендации
- С.С. Стивенс. По теории шкал измерения. Science , 103 : 677-680, 1946.
- WG Cochran. Некоторые методы усиления общих тестов . Biometrics , 10 : 417-451, 1954.χ2
- J Nunnally и я Бернштейн. Психометрическая теория . Макгроу-Хилл, 1994
- Алан Агрести. Категориальный анализ данных . Wiley, 1990.
- ЧР Рао и С. Синхарай, редакторы. Справочник по статистике, вып. 26: Психометрия . Elsevier Science BV, Нидерланды, 2007.
- Бумсма, MAJ van Duijn и TAB Snijders. Очерки теории ответа на вопрос . Springer, 2001.
- D Thissen и L Steinberg. Таксономия моделей ответа на товар. Psychometrika , 51 (4) : 567–577, 1986.
- П Маир и Р. Хатцингер. Расширенное моделирование Rasch: МВК Пакет для применения IRT моделей в R . Журнал статистического программного обеспечения , 20 (9) , 2007.