Как лучше всего сделать это будет изменяться чрезвычайно в зависимости от задачи , которую вы выполняете, так что нельзя сказать , что будет лучше в задачи независимым образом.
Есть две простые вещи, чтобы попробовать, если ваши уровни являются порядковыми:
- Бен их. Например, 0 = (0 250), 1 = (251 500) и т. Д. Возможно, вы захотите выбрать пределы, чтобы в каждой корзине было одинаковое количество элементов.
- Вы также можете взять лог-преобразование уровней. Это сократит диапазон вниз.
Если уровни не являются порядковыми, вы можете кластеризовать уровни на основе других функций / переменных в вашем наборе данных и заменить идентификаторы кластера для предыдущих уровней. Существует так много способов сделать это, как и алгоритмов кластеризации, поэтому поле широко открыто. Когда я это читаю, это то, что combine.levels()
мы делаем. Вы можете сделать то же самое, используя kmeans()
или prcomp()
. (Вы могли / должны впоследствии обучить классификатор, чтобы предсказывать кластеры для новых точек данных.)