Ответы:
@ Scortchi поможет вам ответить на вопрос о кодировании для упорядоченной ковариаты . Я повторил рекомендацию относительно моего ответа на « Влияние двух демографических IV на ответы в опросе» (шкала Лайкерта) . В частности, рекомендация использовать Gertheiss' (2013) ordPens пакет , и обратиться к Gertheiss и Tutz (2009a) для теоретической подготовки и исследования моделирования.
Конкретная функция, которую вы, вероятно, хотите, это ordSmooth
* . Это существенно сглаживает фиктивные коэффициенты по уровням порядковых переменных, чтобы они были менее отличными от таковых для смежных рангов, что уменьшает переоснащение и улучшает предсказания. Как правило, она выполняет оценку регрессионной модели для непрерывных (или, в их терминах, метрических) данных, а также (или иногда намного) лучше, чем максимальное правдоподобие (т. Е. Обычные наименьшие квадраты в данном случае), когда данные на самом деле являются порядковыми. Он кажется совместимым со всеми видами обобщенных линейных моделей и позволяет вводить номинальные и непрерывные предикторы в виде отдельных матриц.
Несколько дополнительных ссылок от Gertheiss, Tutz и коллег доступны и перечислены ниже. Некоторые из них могут содержать альтернативы - даже Gertheiss и Tutz (2009a) обсуждают ригидное прохождение как другую альтернативу. Я сам еще не перерыл все это, но достаточно сказать, что это решает проблему Эрика - слишком мало литературы по порядковым предикторам!
Ссылки
- Gertheiss, J. (2013, 14 июня). ordPens: Выбор и / или сглаживание порядковых предикторов , версия 0.2-1. Получено с http://cran.r-project.org/web/packages/ordPens/ordPens.pdf .
- Gertheiss J., Hogger S., Oberhauser C. & Tutz G. (2011). Выбор обычно масштабируемых независимых переменных с приложениями к международной классификации функционирующих базовых наборов. Журнал Королевского статистического общества: Серия C (Прикладная статистика), 60 (3), 377–395.
- Gertheiss, J. & Tutz, G. (2009a). Наказанная регрессия с порядковыми предикторами. Международный статистический обзор, 77 (3), 345–365. Получено с http://epub.ub.uni-muenchen.de/2100/1/tr015.pdf .
- Gertheiss, J. & Tutz, G. (2009b). Контролируемый выбор характеристик в протеомном профилировании на основе масс-спектрометрии путем блочного бустинга. Биоинформатика, 25 (8), 1076–1077.
- Gertheiss, J. & Tutz, G. (2009c). Переменное масштабирование и методы ближайшего соседа. Журнал хемометрики, 23 (3), 149–151. - Gertheiss, J. & Tutz, G. (2010). Разреженное моделирование категориальных объясняющих переменных.
Анналы прикладной статистики, 4 , 2150–2180.
- Хофнер Б., Хоторн Т., Кнейб Т. и Шмид М. (2011). Основа для беспристрастного выбора модели на основе повышения. Журнал вычислительной и графической статистики, 20 (4), 956–971. Получено с http://epub.ub.uni-muenchen.de/11243/1/TR072.pdf .
- Oelker, M.-R., Gertheiss, J. & Tutz, G. (2012). Регуляризация и выбор модели с категориальными предикторами и модификаторами эффектов в обобщенных линейных моделях. Департамент статистики: технические отчеты, № 122 . Получено с http://epub.ub.uni-muenchen.de/13082/1/tr.gvcm.cat.pdf .
- Oelker, M.-R. & Tutz, G. (2013). Общее семейство штрафов за комбинирование различных видов штрафов в обобщенных структурированных моделях. Департамент статистики: технические отчеты, № 139 . Получено с http://epub.ub.uni-muenchen.de/17664/1/tr.pirls.pdf .
- Petry S., Flexeder C. & Tutz G. (2011). Парное плавленое лассо. Департамент статистики: технические отчеты, № 102, Получено с http://epub.ub.uni-muenchen.de/12164/1/petry_etal_TR102_2011.pdf .
- Руфибах К. (2010). Алгоритм активного набора для оценки параметров в обобщенных линейных моделях с упорядоченными предикторами. Вычислительная статистика и анализ данных, 54 (6), 1442–1456. Получено с http://arxiv.org/pdf/0902.0240.pdf?origin=publication_detail .
- Тутц Г. (2011, октябрь). Методы регуляризации для категориальных данных. Мюнхен: Людвиг-Максимилиан-Университет. Получено с http://m.wu.ac.at/it/departments/statmath/resseminar/talktutz.pdf .
- Tutz, G. & Gertheiss, J. (2013). Оценка шкал как предикторов - старый вопрос уровня шкалы и некоторые ответы.Психометрика , 1-20.
Когда имеется несколько предикторов, а интересующий предиктор является порядковым, часто трудно решить, как кодировать переменную. Кодирование его как категориального теряет информацию о порядке, в то время как кодирование как числового налагает линейность на эффекты упорядоченных категорий, которые могут быть далеки от их истинных эффектов. Для первого изотоническая регрессия была предложена как способ устранения немонотонности, но это процедура выбора модели, основанная на данных, которая, как и многие другие процедуры, основанные на данных, требует тщательной оценки окончательно подобранной модели и значимости его параметров. В последнем случае сплайны могут частично смягчать предположение о жесткой линейности, но числа по-прежнему должны присваиваться упорядоченным категориям, и результаты чувствительны к этим выборам. В нашей статье (Li and Shepherd, 2010, Введение, параграфы 3-5)
Позволять быть переменной результата, быть порядковым предиктором интереса, и быть другими ковариатами. Мы предложили установить две модели регрессии, одну для на и другие на вычислить невязки для двух моделей и оценить корреляцию между невязками. В работе Li and Shepherd (2010) мы изучали этот подход, когда является порядковым и показал, что это может быть очень хороший надежный подход, если эффект от Категории монотонные. В настоящее время мы оцениваем эффективность этого подхода для других типов результатов.
Этот подход требует соответствующего остатка для регрессии порядкового номера на , Мы предложили новый остаток для порядковых результатов в Li and Shepherd (2010) и использовали его для построения тестовой статистики. Далее мы изучили свойства и другие способы использования этого остатка в отдельной статье (Li and Shepherd, 2012).
Мы разработали пакет R, PResiduals , который можно приобрести в CRAN. Пакет содержит функции для выполнения нашего подхода к линейным и порядковым типам результатов. Мы работаем над добавлением других типов результатов (например, подсчет) и функций (например, разрешая взаимодействия). Пакет также содержит функции для вычисления нашего остатка, который является остатком шкалы вероятности, для различных регрессионных моделей.
Ссылки
Li, C. & Shepherd, BE (2010). Проверка связи между двумя порядковыми переменными при корректировке на ковариаты. ЯСА, 105, 612–620.
Li, C. & Shepherd, BE (2012). Новый остаток для порядковых результатов. Биометрика 99, 473–480.
Как правило, имеется много литературы по порядковым переменным как зависимым и мало по использованию их в качестве предикторов. В статистической практике они обычно предполагаются либо непрерывными, либо категориальными. Вы можете проверить, хорошо ли подходит линейная модель с предиктором в качестве непрерывной переменной, проверив остатки.
Иногда они также кодируются кумулятивно. Примером может служить порядковая переменная x1 с уровнями 1,2 и 3, имеющая фиктивную двоичную переменную d1 для x1> 1 и фиктивную двоичную переменную d2 для x1> 2. Тогда коэффициент для d1 - это эффект, который вы получаете, когда вы увеличиваете свой порядковый номер на 2 до 3, а коэффициент для d2 - это эффект, который вы получаете, когда вы используете порядковый номер от 2 до 3.
Это делает интерпретацию часто более легкой, но эквивалентно использованию ее в качестве категориальной переменной для практических целей.
Гельман даже предполагает, что можно использовать порядковый предиктор как категориальный фактор (для основных эффектов) и как непрерывную переменную (для взаимодействий) для повышения гибкости моделей.
Моя личная стратегия обычно состоит в том, чтобы посмотреть, имеет ли смысл рассматривать их как непрерывные и привести к разумной модели, и использовать их только как категоричные, если это необходимо.