Имеет ли смысл когда-либо рассматривать категориальные данные как непрерывные?


57

Отвечая на этот вопрос о дискретных и непрерывных данных, я уверенно утверждал, что редко имеет смысл рассматривать категориальные данные как непрерывные.

На первый взгляд это кажется само собой разумеющимся, но интуиция часто является плохим руководством для статистики, или, по крайней мере, моим. Так что теперь я задаюсь вопросом: это правда? Или существует установленный анализ, для которого действительно полезно преобразование из категориальных данных в некоторый континуум? Будет ли иметь значение, если данные были порядковыми?


20
Этот вопрос и его ответы напоминают нам о том, насколько грубым и ограниченным является это устаревшее деление переменных на категориально-порядковый интервал. Он может направлять статистически наивного, но для вдумчивого или опытного аналитика это препятствие, препятствие на пути выражения переменных способами, которые подходят для данных и решений, которые будут приняты с ними. Кто-то, работающий с этой последней точки зрения, будет свободно перемещаться между категориальным и «непрерывным» представлением данных; для них этот вопрос даже не может возникнуть! Вместо этого мы должны спросить: как это помогает?
whuber

@whuber (+1) По крайней мере, кажется, что трудно оптимизировать надежность измерений и точность диагностики одновременно.
ЧЛ

Ответы:


34

Я предполагаю, что «категориальная» переменная фактически означает порядковую переменную; в противном случае не имеет смысла рассматривать его как непрерывную, если только это не двоичная переменная (с кодом 0/1), как указано @Rob. Затем я бы сказал, что проблема заключается не столько в том, как мы относимся к переменной, хотя до сих пор разработано много моделей для анализа категориальных данных - см., Например, Анализ упорядоченных категориальных данных: обзор и обзор последних разработки от Liu и Agresti--, чем основную шкалу измерения мы предполагаем. Мой ответ будет сосредоточен на этом втором пункте, хотя сначала я кратко расскажу о присвоении числовых баллов различным категориям или уровням.

Используя простую числовую перекодировку порядковой переменной, вы предполагаете, что переменная имеет интервальные свойства (в смысле классификации, данной Стивенсом, 1946). С точки зрения теории измерений (в психологии), это часто может быть слишком сильным предположением, но для базового исследования (то есть, когда один элемент используется для выражения своего мнения о повседневной деятельности с четкой формулировкой), любые монотонные оценки должны давать сопоставимые результаты. , Кокран (1954) уже указывал, что

любой набор баллов дает действительный тест при условии, что они построены без учета результатов эксперимента. Если набор баллов плохой, так как он сильно искажает числовую шкалу, которая действительно лежит в основе упорядоченной классификации, тест не будет чувствительным. Таким образом, баллы должны отражать лучшее понимание того, как была построена и использована классификация. (стр. 436)

(Большое спасибо @whuber за то, что он напомнил мне об этом в одном из своих комментариев, что побудило меня перечитать книгу Агрести, из которой взята эта цитата.)

На самом деле, некоторые тесты неявно обрабатывают такие переменные как интервальные шкалы: например, статистика для тестирования линейного тренда (в качестве альтернативы простой независимости) основана на корреляционном подходе ( , Агрести, 2002, стр. 87).M 2 = ( n - 1 ) r 2M2M2=(n1)r2

Что ж, вы также можете решить перекодировать вашу переменную в нерегулярном диапазоне или объединить некоторые из ее уровней, но в этом случае сильный дисбаланс между перекодированными категориями может исказить статистические тесты, например, вышеупомянутый тест тренда. @Jeromy уже предложила хорошую альтернативу для определения расстояния между категориями, а именно оптимальное масштабирование.

Теперь давайте обсудим второй момент, который я сделал, это базовая модель измерения. Я всегда сомневаюсь в добавлении тега «psychometrics», когда вижу такой вопрос, потому что построение и анализ шкал измерения подпадают под Psychometric Theory (Nunnally and Bernstein, 1994, для аккуратного обзора). Я не буду останавливаться на всех моделях, которые фактически возглавляются в соответствии с теорией отклика на предмет , и я любезно рекомендую заинтересованному читателю учебник И. Партчева « Визуальное руководство по теории отклика на предмет»., для мягкого введения в IRT, и ссылки (5-8), перечисленные в конце для возможных таксономий IRT. Вкратце, идея заключается в том, что вместо того, чтобы назначать произвольные расстояния между переменными категориями, вы принимаете скрытую шкалу и оцениваете их местоположение в этом континууме вместе со способностями или ответственностью отдельных лиц. Простой пример стоит больших математических обозначений, поэтому давайте рассмотрим следующий пункт ( взятый из опросника качества жизни EORTC QLQ-C30 ):

Вы волновались?

который закодирован по четырехбалльной шкале, от «совсем нет» до «очень». Необработанные баллы вычисляются путем присвоения баллов от 1 до 4. Затем баллы по элементам, принадлежащим к одной и той же шкале, можно сложить вместе, чтобы получить так называемый балл по шкале, который обозначает ранг базовой конструкции (здесь - компонент психического здоровья). ). Такие суммарные баллы по шкале очень практичны из-за легкости начисления баллов (для практикующего врача или медсестры), но они представляют собой не что иное, как дискретную (упорядоченную) шкалу.

Мы также можем считать, что вероятность одобрения данной категории ответов подчиняется некоторой логистической модели, как описано в учебнике И. Партчева, упомянутом выше. По сути, идея заключается в том, чтобы создать своего рода пороговую модель (которая приводит к эквивалентной формулировке в терминах моделей пропорциональных или совокупных шансов), и мы моделируем шансы на то, чтобы быть в одной категории ответа, а не на предыдущей, или шансы на оценку выше определенная категория, обусловленная расположением предметов по скрытой черте. Кроме того, мы можем навязать, что категории ответов равномерно распределены по скрытой шкале (это модель шкалы рейтингов) - так мы поступаем, присваивая регулярно расположенные числовые оценки - или нет (это модель частичного кредита) ,

Ясно, что мы не добавляем слишком много к Классической Теории Тестов, где порядковые переменные рассматриваются как числовые. Тем не менее, мы вводим вероятностную модель, в которой мы принимаем непрерывную шкалу (с интервальными свойствами) и где можно учесть конкретные ошибки измерения, и мы можем включить эти факторные оценки в любую регрессионную модель.

Рекомендации

  1. С.С. Стивенс. По теории шкал измерения. Science , 103 : 677-680, 1946.
  2. WG Cochran. Некоторые методы усиления общих тестов . Biometrics , 10 : 417-451, 1954.χ2
  3. J Nunnally и я Бернштейн. Психометрическая теория . Макгроу-Хилл, 1994
  4. Алан Агрести. Категориальный анализ данных . Wiley, 1990.
  5. ЧР Рао и С. Синхарай, редакторы. Справочник по статистике, вып. 26: Психометрия . Elsevier Science BV, Нидерланды, 2007.
  6. Бумсма, MAJ van Duijn и TAB Snijders. Очерки теории ответа на вопрос . Springer, 2001.
  7. D Thissen и L Steinberg. Таксономия моделей ответа на товар. Psychometrika , 51 (4) : 567–577, 1986.
  8. П Маир и Р. Хатцингер. Расширенное моделирование Rasch: МВК Пакет для применения IRT моделей в R . Журнал статистического программного обеспечения , 20 (9) , 2007.

19

Если есть только две категории, то преобразование их в (0,1) имеет смысл. Фактически, это обычно делается, когда результирующая фиктивная переменная используется в регрессионных моделях.

Если существует более двух категорий, то я думаю, что это имеет смысл только в том случае, если данные являются порядковыми, и то только в очень конкретных обстоятельствах. Например, если я делаю регрессию и подгоняю непараметрическую нелинейную функцию к порядковой-числовой переменной, я думаю, что это нормально. Но если я использую линейную регрессию, то я делаю очень сильные предположения об относительной разнице между последовательными значениями порядковой переменной, и я обычно не хочу этого делать.


1
«[T] тогда я делаю очень сильные предположения об относительной разнице между последовательными значениями порядковой переменной». Я думаю, что это ключевой момент, на самом деле. то есть насколько сильно вы можете утверждать, что разница между группами 1 и 2 сопоставима с разницей между 2 и 3?
Фрейя Харрисон

Я думаю, что вы должны сделать некоторое предположение о том, как должна распределяться непрерывная переменная, а затем попытаться подогнать эту «псевдогистограмму» каждой категориальной переменной частоты (я имею в виду ширину бина, которая преобразует ее в подобранную гистограмму). Тем не менее, я не эксперт в этой области, это быстрая и грязная идея.

Пересчет бинарных категорий как {0,1} имеет смысл, но превращение этого в непрерывный интервал [0,1] кажется чем-то вроде прыжка. В более широком плане, я полностью согласен с вашим нежеланием взвешивать порядковые числа в равной степени, если только у модели нет веских аргументов.
walkytalky

18

Обычная практика - рассматривать упорядоченные категориальные переменные со многими категориями как непрерывные. Примеры этого:

  • Количество предметов, правильное при тестировании 100 предметов
  • Суммарная психологическая шкала (например, это среднее из 10 пунктов по пятибалльной шкале)

И под «обработкой как непрерывной» я подразумеваю включение переменной в модель, которая предполагает непрерывную случайную переменную (например, как зависимую переменную в линейной регрессии). Я полагаю, вопрос в том, сколько точек шкалы требуется, чтобы это было разумным упрощающим допущением.

Несколько других мыслей:

  • Полихорические корреляции пытаются моделировать отношения между двумя порядковыми переменными в терминах предполагаемых скрытых непрерывных переменных.
  • Оптимальное масштабирование позволяет вам разрабатывать модели, в которых масштабирование категориальной переменной разрабатывается на основе данных, с учетом любых ограничений масштаба, которые вы налагаете (например, ординальность). Хорошее введение см. De Leeuw and Mair (2009).

Рекомендации

  • De Leeuw, J. & Mair, P. (2009). Методы Гифи для оптимального масштабирования в R: Пакетные гомалы. Журнал статистического программного обеспечения, готовится к печати, 1-30. PDF

7

Очень простой пример, который часто упускается из виду и который должен лежать в опыте многих читателей, касается оценок или оценок, присвоенных академической работе. Часто оценки для отдельных заданий по сути являются порядковыми измерениями, основанными на суждениях, даже если в качестве условного обозначения они обозначаются как (скажем) процентные отметки или отметки на шкале с максимум 5 (возможно, также с десятичными точками). То есть учитель может прочитать эссе, диссертацию, тезис или статью и решить, что он заслуживает 42%, или 4, или что-то еще. Даже если оценки основаны на детальной схеме оценки, шкала находится на некотором расстоянии от шкалы измерения интервала или отношения.

Но тогда многие учреждения считают, что если у вас достаточно этих оценок или оценок, то вполне разумно их усреднить (среднее значение за оценку и т. Д.) И даже проанализировать их более подробно. Таким образом, в некоторый момент порядковые измерения превращаются в итоговую шкалу, которая рассматривается как непрерывная.

Ценители иронии заметят, что статистические курсы во многих департаментах или школах часто учат тому, что это в лучшем случае сомнительно, а в худшем - неправильно, хотя все это реализуется как общеуниверситетская процедура.


5

При анализе ранжирования по частоте, как с диаграммой Парето и соответствующими значениями (например, сколько категорий составляют 80% ошибок продукта)


5
Важный момент, и его можно расширить: многие модели для порядковых данных основаны на идее, что можно моделировать не порядковые данные, а их совокупные вероятности.
Ник Кокс,

4

Я собираюсь привести аргумент, что трактовка действительно категориальной неординарной переменной как непрерывной иногда имеет смысл.

Если вы строите деревья решений на основе больших наборов данных, преобразование категориальных переменных в фиктивные переменные может оказаться дорогостоящим с точки зрения вычислительной мощности и памяти. Кроме того, некоторые модели (например, randomForestв R) не могут обрабатывать категориальные переменные со многими уровнями.

В этих случаях древовидная модель должна быть в состоянии идентифицировать чрезвычайно важные категории, ДАЖЕ ЕСЛИ они закодированы как непрерывная переменная. Придуманный пример:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y - непрерывная переменная, a - непрерывная переменная, а b - категориальная переменная. Тем не менее, в dat1б рассматривается как непрерывный.

Подгоняя дерево решений к этим двум наборам данных, мы находим, что dat1это немного хуже, чем dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

Если вы посмотрите на 2 модели, вы обнаружите, что они очень похожи, но model1 упускает важность b == 42:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

Тем не менее, модель 1 работает примерно в 1/10 времени модели 2:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066 

Конечно, вы можете настроить параметры задачи, чтобы найти ситуации, в которых они dat2значительно превосходят dat1или dat1слегка превосходят dat2.

Я не выступаю за то, чтобы вообще относиться к категориальным переменным как к непрерывным, но я обнаружил, что такие ситуации значительно сокращают время, необходимое для подгонки к моим моделям, без снижения их предсказательной точности.


3

Очень хорошее резюме этой темы можно найти здесь:

mijkerhemtulla.socsci.uva.nl PDF

«Когда можно рассматривать категориальные переменные как непрерывные? Сравнение надежных непрерывных и категориальных методов оценки SEM при неоптимальных условиях».

Мийке Ремтулла, Патриция Э. Броссо-Лиард и Виктория Савалей

Они исследуют методы для этого примерно на 60 страницах и дают представление о том, когда это полезно делать, какой подход использовать и каковы сильные и слабые стороны каждого подхода в соответствии с вашей конкретной ситуацией. Они не охватывают все из них (как я учусь, кажется, что их количество безгранично), но те, которые они охватывают, хорошо покрывают.


2

Есть другой случай, когда это имеет смысл: когда данные отбираются из непрерывных данных (например, через аналого-цифровой преобразователь). Для более старых приборов АЦП часто бывают 10-разрядными, что дает номинальные порядковые данные категории 1024, но может в большинстве случаев рассматриваться как реальные (хотя будут некоторые артефакты для значений вблизи нижнего предела шкалы). Сегодня АЦП чаще всего 16 или 24-разрядные. К тому времени, когда вы говорите о 65536 или 16777216 «категориях», у вас действительно не возникнет проблем с обработкой данных как непрерывных.


Я полностью согласен с вашей практикой, но, пожалуй, такие данные никогда не были порядковыми для начала, а просто дискретными. Виноваты в этом паршивые трактовки отношения номинального-порядкового-интервала за то, что они часто не указывают, что порядковый номер подразумевает дискретность, а не наоборот. Число является порядковым, но это также интервал и соотношение.
Ник Кокс

@ Ник Ordinal подразумевает дискретность? Не обязательно. Непрерывные меры могут быть порядковыми. Например, физиологические переменные, такие как GSP или частота сердечных сокращений, являются непрерывными, но в качестве показателей психологических переменных, таких как тревога или возбуждение, они являются только порядковыми. Понятие «порядковый номер против интервала» действительно относится к линейности функции, которая связывает меру с тем, что она предназначена для измерения.
Рэй Купман

Это интересное замечание, но как только вы попадаете на эту территорию, я не понимаю, как можно вообще классифицировать частоту сердечных сокращений без независимых доказательств того, что такое тревожность, и, в конечном счете, большинство переменных, рассматриваемых в качестве прокси, не поддаются классификации. Будете ли вы полностью отказываться от использования методов для данных об интервалах или коэффициентах всякий раз, когда вы переключаетесь на то, чтобы считать шкалу измерений только порядковой? Я не думаю, что данные ведут себя по-разному из-за того, что вы собираетесь с ними делать; это суть вопроса для меня.
Ник Кокс

1
@Nick Вопрос в том, является ли функция, которая связывает измеренное значение с «истинным» значением, достаточно близкой к линейной, чтобы ее обработка как таковая не приводила к ошибочным существенным выводам, или она должна рассматриваться как только монотонная. Обычно мало или нет точных данных, на которых можно основывать решение; это почти всегда будет призыв к суждению, о котором информированные умные люди могут согласиться не соглашаться.
Рэй Купман

1
Я думаю, что обычный акцент при обсуждении шкал измерения в статистике делается на математических свойствах переменных и каковы допустимые математические операции для каждой из них. Это спорный достаточно. С научной точки зрения вопрос о том, может ли что-то измерять то, что должно быть, я с готовностью согласен, что это жизненно важно, но я вижу довольно другую область дискуссий.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.