Я изо всех сил пытаюсь найти метод для уменьшения количества категорий в номинальных или порядковых данных.
Например, предположим, что я хочу построить регрессионную модель на наборе данных, который имеет ряд номинальных и порядковых факторов. Несмотря на то, что у меня нет проблем с этим шагом, я часто сталкиваюсь с ситуациями, когда номинальный элемент без наблюдений в обучающем наборе, но впоследствии существует в наборе данных проверки. Это естественно приводит к ошибкам, когда модель представлена (пока) невидимыми случаями. Другая ситуация, в которой я хотел бы объединить категории, это просто когда есть слишком много категорий с небольшим количеством наблюдений.
Итак, мои вопросы:
- Хотя я понимаю, что было бы лучше объединить многие номинальные (и порядковые) категории на основе предшествующей реальной исходной информации, которую они представляют, существуют ли систематические методы (
R
предпочтительно пакеты)? - Какие рекомендации и предложения вы бы дали относительно пороговых значений и т. Д.?
- Каковы наиболее популярные решения в литературе?
- Существуют ли другие стратегии, кроме объединения небольших номинальных категорий в новую категорию «ДРУГИЕ»?
Пожалуйста, не стесняйтесь, если у вас есть и другие предложения.