Какие методы доступны для объединения (или объединения) многих категорий в несколько с целью использования их в качестве входных данных (предиктора) в статистической модели?
Рассмотрим переменную, например, степень студента колледжа (дисциплина, выбранная студентом). Он неупорядочен и категоричен, но потенциально может иметь десятки различных уровней. Допустим, я хочу использовать майор в качестве предиктора в регрессионной модели.
Использование этих уровней для моделирования приводит к возникновению всевозможных проблем, потому что их так много. Для их использования была бы выброшена большая статистическая точность, а результаты трудно интерпретировать. Мы редко интересуемся конкретными специальностями - мы гораздо больше заинтересованы в широких категориях (подгруппах) основных специальностей. Но не всегда понятно, как разделить уровни на такие категории более высокого уровня или даже сколько категорий более высокого уровня использовать.
Для типичных данных я был бы рад использовать факторный анализ, матричную факторизацию или метод дискретного скрытого моделирования. Но майоры - это взаимоисключающие категории, поэтому я не решаюсь использовать их ковариацию для чего-либо.
Кроме того, я не забочусь о главных категориях самостоятельно. Я забочусь о создании категорий более высокого уровня, которые согласованы в отношении моего результата регрессии . В случае бинарного результата это предлагает мне что-то вроде линейного дискриминантного анализа (LDA) для генерации категорий более высокого уровня, которые максимизируют дискриминационную производительность. Но LDA - это ограниченная техника, и мне кажется, что грязные данные утащили меня. Более того, любое непрерывное решение будет трудно интерпретировать.
Между тем, что-то, основанное на ковариациях, например, анализ множественной корреспонденции (MCA), кажется мне подозрительным в этом случае из-за внутренней зависимости между взаимоисключающими фиктивными переменными - они лучше подходят для изучения нескольких категориальных переменных, а не нескольких категорий та же переменная.
изменить : чтобы быть понятным, речь идет о сворачивающихся категориях (не выбирая их), а категории являются предикторами или независимыми переменными. Оглядываясь назад, эта проблема кажется подходящим временем, чтобы «упорядочить их всех и позволить Богу разобраться в них». Рад видеть этот вопрос интересным для многих людей!