Как преобразовать порядковые данные из вопросника в надлежащие интервальные данные?

Существуют ли какие-либо простые методы преобразования данных порядкового уровня в интервальный уровень (точно так же, как это делается наоборот)? И выполнимо в Excel или SPSS?

Имея данные, скажем: 10 вопросов на порядковом уровне (скажем, шкала 0-5, где 0 = «совсем нет», 5 = «все время»), я хочу преобразовать их, чтобы они могли рассматриваться как правильные интервальные данные для параметрического тестирования (нормальное распределение, непараметрические тесты не обсуждаются).

Буду крайне признателен за ответы!

— Гил
источник

Как можно получить значения 6, 7, 8, 9, 10 по шкале 0-5 или я что-то упустил?

— ttnphns

Что вы подразумеваете под простым? Преобразовать категориальные переменные в метрические шкалы - непростая задача. Существуют некоторые модели скрытых переменных (например, модели IRT), которые, учитывая определенные предположения, позволяют это сделать. Другой способ - оптимальное масштабирование. Но для этого, я полагаю, вы должны быть готовы сделать что-то с R и углубиться в некоторые расширенные статистические данные, такие как модели скрытых переменных или нелинейных PCA. Это звучит нормально?

— Момо

В этом ответе будут обсуждаться возможные модели с точки зрения измерения , где нам дается набор наблюдаемых (манифестных) взаимосвязанных переменных или мер, общая дисперсия которых предполагается для измерения хорошо идентифицированной, но не наблюдаемой непосредственно конструкции (как правило, в отражающей образом), который будет рассматриваться как скрытая переменная . Если вы не знакомы с моделью измерения скрытых признаков, я бы порекомендовал следующие две статьи: «Атака психометриков» , Денни Борсбуом, и « Моделирование скрытых переменных: опрос » Андерса Скрондала и Софии Рабе-Хескет. Сначала я сделаю небольшое отступление от бинарных индикаторов, прежде чем рассматривать элементы с несколькими категориями ответов.

Одним из способов преобразования данных порядкового уровня в интервальную шкалу является использование некоторой модели отклика элемента . Хорошо известным примером является модель Rasch , которая расширяет идею модели параллельного теста от классической теории теста, чтобы справиться с бинарными элементамичерез обобщенную (с логит-связью) линейную модель со смешанным эффектом (в некоторых «современных» программных реализациях), где вероятность одобрения данного элемента является функцией «сложности элемента» и «способности человека» (при условии, что нет взаимодействие между местоположением на измеряемой скрытой характеристике и местоположением предмета на одной и той же логит-шкале, которое может быть зафиксировано с помощью дополнительного параметра распознавания предмета, или взаимодействие с индивидуальными характеристиками, которое называется функционированием дифференциального предмета ). Предполагается, что базовая конструкция является одномерной, и логика модели Раша заключается в том, что у респондента есть определенное «количество конструкции» - давайте поговорим об ответственности субъекта (его / ее «способности»), $\theta$ $\theta$

$N=766$ $\alpha=0.971$ $[0.967;0.975]$ ). Первоначально было предложено пять категорий ответов (1 = «Никогда», 2 = «Редко», 3 = «Иногда», 4 = «Часто» и 5 = «Всегда») для каждого элемента. Здесь мы рассмотрим только бинарные ответы.

введите описание изображения здесь
_{(Здесь ответы на элементы типа Лайкерта были перекодированы как двоичные ответы (1/2 = 0, 3-5 = 1), и мы считаем, что каждый элемент одинаково различает людей, следовательно, параллелизм между наклонами кривой элемента (Rasch) модель).)}

$x$

Для политомических элементов с упорядоченными категориями, есть несколько вариантов: на частичной кредитной модели , в масштабе модели рейтинга , или градуированную модель отклика , чтобы имя , но некоторые из них , которые в основном используются в прикладных исследованиях. Первые два принадлежат к так называемому «семейству Раша» моделей IRT и имеют следующие свойства: (а) монотонность функции вероятности ответа (кривая отклика элемента / категории), (б) достаточность общего индивидуального балла (с латентным параметр считается фиксированным), (c) локальная независимость, означающая, что ответы на элементы являются независимыми, обусловленными скрытой чертой, и (d) отсутствие функционирования дифференциальных элементов Это означает, что, в зависимости от скрытой черты, ответы не зависят от внешних индивидуальных специфических переменных (например, пол, возраст, этническая принадлежность, SES).

Расширяя предыдущий пример на случай, когда эффективно учитываются пять категорий ответа, пациент будет иметь более высокую вероятность выбора категории ответа от 3 до 5 по сравнению с человеком, отобранным из общей популяции, без какого-либо предшествующего случая связанных с тревогой расстройств. По сравнению с моделированием дихотомичного пункта описано выше, эти модели рассматривают как накопленные (например, коэффициенты ответов 3 против 2 или меньше) или порога смежно-категории (шансы ответа на 3 против 2), который также обсуждаются в Агрести в Категориальном Анализ данных(глава 12). Основное различие между вышеупомянутыми моделями заключается в том, как обрабатываются переходы из одной категории ответа в другую: модель частичного кредита не предполагает, что разница между любым заданным пороговым местоположением и средним пороговым местоположением в скрытой характеристике равна или равномерно по предметам, в отличие от модели шкалы оценок. Другое тонкое различие между этими моделями заключается в том, что некоторые из них (например, модель безусловного дифференцированного ответа или модель частичного кредитования) допускают неравные параметры дискриминации между элементами. Дополнительные сведения см. В разделе « Применение моделирования теории отклика элемента для оценки свойств элемента и шкалы вопросника » Рива и Фейерса или «Основы теории отклика элемента » Фрэнка Б. Бейкера.

Поскольку в предыдущем случае мы обсуждали интерпретацию кривых вероятности ответов для дихотомически оцениваемых элементов, давайте посмотрим на кривые отклика элементов, полученные из модели дифференцированного отклика, выделив те же целевые элементы:

введите описание изображения здесь
_{(Неограниченная модель дифференцированного ответа, допускающая неравную дискриминацию среди предметов.)}

Здесь следующие наблюдения заслуживают некоторого рассмотрения:

$[2;2.5]$
Существует общий сдвиг слева направо между пунктом, оценивающим качество сна, и тем, кто оценивает более тяжелые состояния, хотя нарушения сна не редкость. Это ожидаемо: в конце концов, даже люди в общей популяции могут испытывать некоторые трудности с засыпанием, независимо от состояния их здоровья, и у людей с серьезной депрессией или тревогой могут возникнуть такие проблемы. Тем не менее, «нормальные люди» (если это когда-либо имело какое-либо значение) вряд ли будут демонстрировать некоторые признаки панического расстройства (вероятность того, что они выберут самую высокую категорию ответа, равна нулю для людей, находящихся вплоть до промежуточного диапазона или более скрытой черты, [ 0; 1]).

$\theta$

Помимо того , что модели Rasch считаются настоящими моделями измерений , они делают привлекательными то, что суммарные баллы в качестве достаточной статистики могут использоваться в качестве суррогатов скрытых баллов. Более того, свойство достаточности легко подразумевает разделимость параметров модели (людей и предметов) (в случае многочленных предметов не следует забывать, что все применимо на уровне категории ответа предмета), следовательно, возникает совокупная аддитивность.

Хороший обзор IRT модели иерархии, с внедрением R, имеется в статье МАИР и Hatzinger, опубликованной в журнале статистического программного обеспечения : Extended Rasch Modeling: МВК Пакет для применения IRT моделей в R . Другие модели включают в себя лог-линейные модели , непараметрическую модель, такую как модель Моккена , или графические модели .

Помимо R, мне не известны реализации Excel, но в этом потоке было предложено несколько статистических пакетов: как начать применять теорию отклика элементов и какое программное обеспечение использовать?

Наконец, если вы хотите изучить взаимосвязи между набором элементов и переменной отклика, не прибегая к модели измерения, некоторая форма квантования переменных через оптимальное масштабирование также может быть интересной. Помимо R-реализаций, обсуждаемых в этих потоках, решения SPSS были также предложены для связанных потоков .

Ссылки

Pilkonis P., Choi S., Reise S., Stover A. and Riley W. et al. (2011). Банки предметов для измерения эмоционального дистресса из информационной системы измерения результатов, сообщаемой пациентом (PROMIS): депрессия, беспокойство и гнев . Оценка , 18 (3), 263–283.
Чой, С., Гиббонс, Л. и Крейн, П. (2011). lordif: пакет R для обнаружения функционирования дифференциальных элементов с использованием итеративной гибридной порядковой логистической регрессии / теории отклика элементов и моделирования Монте-Карло . Журнал статистического программного обеспечения , 39 (8).

— хл
источник

@ Момо Спасибо. Это любопытно. При ответе (и повторном редактировании этого ответа сегодня) я не заметил ваш комментарий, который стоит большой +1. Пожалуйста, не стесняйтесь редактировать мой ответ, где вы считаете нужным.

— chl

В своей книге « Анализ порядковых категориальных данных» Алан Агрести охватывает несколько. Один из них - ридитс, о котором я рассказываю в своем блоге

— Питер Флом - Восстановить Монику
источник

Можете ли вы объяснить это немного больше? На первый взгляд кажется, что любой метод, который утверждает, что объективно переводит порядковые данные в интервальные данные, был бы волшебным, поскольку кажется, что вы всегда могли бы дать не столь патологические контрпримеры, которые «сломали бы» любой метод, но я мог бы пропустить кое-что важное. Также кажется, что для этого потребуется некоторое априорное представление о расстоянии между порядковыми категориями - откуда это взялось?

— Макрос

Формулы приведены в сообщении в блоге, а полное обсуждение - в книге Агрести, но, по сути, она использует данные для создания «средних совокупных пропорций», а затем использует их в качестве баллов. Расстояние зависит от пропорций в каждом ответе, а не от чего-либо в самих категориях.

— Питер Флом - Восстановить Монику

+1. Ридиты легко объясняются равными долями + (1/2). Таким образом, если 1, 2, 3, 4, 5 имеют наблюдаемые доли или вероятности 0,2, 0,4, 0,2, 0,1, 0,1, то ридит 1 равен 0,1; значение 2 равно 0,4 и т. д. Ридиты обрабатывают категории симметрично и с меньшей вероятностью, чем дробная дробь или дробная дробь, включают в себя 0 или 1, что часто бывает неловко.

— Ник Кокс

Само название Ridit было задумано Броссом (примечание: ссылка необходима), и предполагаемое объяснение - бред. Лучшими именами являются функция среднего распределения (Parzen 1993) и функция ранга Haberman (1996). Хаберман, SJ 1996. Расширенные статистические данные том I: Описание населения . Нью-Йорк: Спрингер. Parzen, E. 1993. Изменение графика PP и непрерывной выборки квантильной функции. Коммуникации в статистике. Теория и методика 22: 3287-3304.

— Ник Кокс

Сами Ridits могут проталкиваться, например, с помощью нормальных или гауссовских квантильных функций.

— Ник Кокс