Методы объединения / сокращения категорий в порядковых или номинальных данных?


14

Я изо всех сил пытаюсь найти метод для уменьшения количества категорий в номинальных или порядковых данных.

Например, предположим, что я хочу построить регрессионную модель на наборе данных, который имеет ряд номинальных и порядковых факторов. Несмотря на то, что у меня нет проблем с этим шагом, я часто сталкиваюсь с ситуациями, когда номинальный элемент без наблюдений в обучающем наборе, но впоследствии существует в наборе данных проверки. Это естественно приводит к ошибкам, когда модель представлена ​​(пока) невидимыми случаями. Другая ситуация, в которой я хотел бы объединить категории, это просто когда есть слишком много категорий с небольшим количеством наблюдений.

Итак, мои вопросы:

  • Хотя я понимаю, что было бы лучше объединить многие номинальные (и порядковые) категории на основе предшествующей реальной исходной информации, которую они представляют, существуют ли систематические методы (R предпочтительно пакеты)?
  • Какие рекомендации и предложения вы бы дали относительно пороговых значений и т. Д.?
  • Каковы наиболее популярные решения в литературе?
  • Существуют ли другие стратегии, кроме объединения небольших номинальных категорий в новую категорию «ДРУГИЕ»?

Пожалуйста, не стесняйтесь, если у вас есть и другие предложения.


Посмотрите на соответствующий вопрос: stats.stackexchange.com/questions/227125/…
kjetil b halvorsen

Ответы:


11

Это ответ на ваш второй вопрос.

Я подозреваю правильный подход к такого рода решениям будет во многом определяться дисциплинарными нормами и ожиданиями предполагаемой аудитории вашей работы. Как социолог, я часто работаю с данными опросов (или подобными опросам) и всегда стараюсь сбалансировать субстанциональную и управляемую данными логику, когда свертываю порядковые шкалы или категориальные переменные. Другими словами, я сделаю все возможное, чтобы рассмотреть, какие комбинации элементов «слипаются» с точки зрения их содержания, а также распределения ответов, прежде чем я сверну элементы.

Вот недавний пример конкретного (порядкового) опроса, который включал пятибалльную шкалу частот:

Как часто вы посещаете собрания клуба или организации в вашем сообществе?

  • Никогда
  • Несколько раз в год
  • Раз в месяц
  • Несколько раз в месяц
  • Раз в неделю или больше

На данный момент у меня нет доступных мне данных, но результаты были сильно искажены в сторону «никогда» шкалы. В результате я и мой соавтор решили объединить ответы в две группы: «Один раз в месяц или больше» и «Менее одного раза в месяц». Полученная (двоичная) переменная была более равномерно распределена и отражала значимое различие в практическом плане: поскольку многие клубы и организации встречаются не чаще одного раза в месяц, есть веские основания полагать, что люди, которые посещают собрания, по крайней мере, часто «активные» члены таких групп, тогда как те, кто посещает реже (или никогда), являются «неактивными».

Таким образом, по моему опыту, эти решения, по крайней мере, столько же искусства, сколько наука. Тем не менее, я также обычно пытаюсь сделать это до подгонки любых моделей, так как я работаю в дисциплине, где все остальное рассматривается (негативно) как анализ данных и крайне ненаучно (забавные времена!).

Имея это в виду, было бы полезно, если бы вы могли рассказать немного больше о том, какую аудиторию вы имеете в виду для этой работы. В ваших же интересах было бы ознакомиться с несколькими известными учебниками по методологии в вашей области, поскольку они часто могут прояснить, что считается "нормальным" поведением в данном исследовательском сообществе.


5

Типы подходов, которые Ашоу обсуждает, могут привести к относительно более систематической методологии. Но я также думаю, что под систематическим вы подразумеваете алгоритмический. Здесь инструменты интеллектуального анализа данных могут заполнить пробел. Например, процедура автоматического обнаружения взаимодействия (CHAID), встроенная в модуль дерева решений SPSS; он может, в соответствии с правилами, установленными пользователем, сворачивать порядковые или номинальные категории переменных-предикторов, когда они показывают аналогичные значения в конечной переменной (как непрерывной, так и номинальной). Эти правила могут зависеть от размера групп будучи свернутыми или создаются путем разрушения, или на р-значения связанных статистических тестов. Я считаю, что некоторые программы классификации и дерева регрессии (CART) могут делать то же самое. Другие респонденты должны иметь возможность говорить о похожих функциях, выполняемых нейронной сетью или другими приложениями, предоставляемыми через различные пакеты интеллектуального анализа данных.


Замечательно, @rolando - поскольку исходное сообщение относится к наборам данных обучения и проверки, я подозреваю, что ваш ответ может быть более пригодным для @Figaro.
Ашоу

Спасибо вам обоим за ваш ценный вклад. @ rolando2 Вы были правы насчет моей неоднозначной формулировки, алгоритмическое направление было тем направлением, к которому я стремился.
Фигаро
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.