Это широкая тема, и вы столкнетесь с рядом причин, по которым данные должны быть или уже упорядочены. Не все из них связаны с точностью прогнозирования.
Во-первых, вот пример, когда разработчик модели может захотеть добавить в корзину. Предположим, я строю модель кредитного скоринга: я хочу знать склонность людей к дефолту по кредиту. В моих данных у меня есть столбец с указанием статуса кредитного отчета. То есть я заказал отчет в рейтинговом агентстве, и агентство вернуло, скажем, их собственный балл вместе с категориальной переменной, указывающей на достоверность этого балла. Этот индикатор может быть гораздо более мелкозернистым, чем мне нужно для моих целей. Например, «недостаточно информации для достоверной оценки» можно разбить на многие классы, такие как «возраст менее 20 лет», «недавно переехал в страну», «нет предварительной кредитной истории» и т. Д. Многие из этих классов может быть малонаселенным и, следовательно, довольно бесполезным в регрессии или другой модели. Чтобы справиться с этим, я могу объединить классы, чтобы объединить статистические возможности в «представительный» класс. Например, для меня может быть разумным использовать только двоичный индикатор «верная информация верна» против «информация не возвращена». По моему опыту, многие приложения бакетизации попадают в этот общийраспад малонаселенных категорий типа.
Некоторые алгоритмы используют внутреннее форматирование. Например, деревья, помещающиеся в алгоритмах повышения, часто проводят большую часть своего времени на этапе суммирования, где непрерывные данные в каждом узле дискретизируются и вычисляется среднее значение ответа в каждом сегменте. Это значительно снижает вычислительную сложность нахождения подходящего разбиения, не жертвуя при этом точностью из-за усиления.
Вы также можете просто получать данные предварительно сгруппированы. Дискретные данные легче сжимать и хранить - длинный массив чисел с плавающей запятой практически не сжимается, но при дискретизации на «высокие», «средние» и «низкие» вы можете сэкономить много места в вашей базе данных. Ваши данные также могут быть из источника, нацеленного на немодельное приложение. Это часто случается, когда я получаю данные от организаций, которые выполняют меньше аналитической работы. Их данные часто используются для отчетности и суммируются на высоком уровне, чтобы помочь с интерпретацией отчетов для неспециалистов. Эти данные все еще могут быть полезны, но часто некоторая мощность теряется.
В чем я вижу меньшую ценность, хотя это возможно, я могу быть исправлен, так это предварительное разбивание непрерывных измерений для целей моделирования. Существует множество очень мощных методов подгонки нелинейных эффектов к непрерывным предикторам, и сгибание лишает вас возможности их использовать. Я склонен рассматривать это как плохую практику.