Что такое бакетизация?

10

Я собирался найти четкое объяснение "сгибания" в машинном обучении без удачи. Что я понимаю до сих пор, так это то, что бекетирование аналогично квантованию в цифровой обработке сигналов, когда диапазон непрерывных значений заменяется одним дискретным значением. Это правильно?

Каковы плюсы и минусы (помимо очевидного влияния потери информации) применения букетизации? Существуют ли практические правила о том, как применять бакетизацию? Существуют ли какие-либо руководящие принципы / алгоритмы для применения группирования до применения машинного обучения?

machine-learning dataset data-preprocessing

— MedAli
источник

Возможно, у меня нет правильного ответа, но грубая и тонкая классификация [WoE и IV] помогает в бакетизации. Извините, если это не то, что вы ожидали.

— Срикант Гухан

4

Это широкая тема, и вы столкнетесь с рядом причин, по которым данные должны быть или уже упорядочены. Не все из них связаны с точностью прогнозирования.

Во-первых, вот пример, когда разработчик модели может захотеть добавить в корзину. Предположим, я строю модель кредитного скоринга: я хочу знать склонность людей к дефолту по кредиту. В моих данных у меня есть столбец с указанием статуса кредитного отчета. То есть я заказал отчет в рейтинговом агентстве, и агентство вернуло, скажем, их собственный балл вместе с категориальной переменной, указывающей на достоверность этого балла. Этот индикатор может быть гораздо более мелкозернистым, чем мне нужно для моих целей. Например, «недостаточно информации для достоверной оценки» можно разбить на многие классы, такие как «возраст менее 20 лет», «недавно переехал в страну», «нет предварительной кредитной истории» и т. Д. Многие из этих классов может быть малонаселенным и, следовательно, довольно бесполезным в регрессии или другой модели. Чтобы справиться с этим, я могу объединить классы, чтобы объединить статистические возможности в «представительный» класс. Например, для меня может быть разумным использовать только двоичный индикатор «верная информация верна» против «информация не возвращена». По моему опыту, многие приложения бакетизации попадают в этот общийраспад малонаселенных категорий типа.

Некоторые алгоритмы используют внутреннее форматирование. Например, деревья, помещающиеся в алгоритмах повышения, часто проводят большую часть своего времени на этапе суммирования, где непрерывные данные в каждом узле дискретизируются и вычисляется среднее значение ответа в каждом сегменте. Это значительно снижает вычислительную сложность нахождения подходящего разбиения, не жертвуя при этом точностью из-за усиления.

Вы также можете просто получать данные предварительно сгруппированы. Дискретные данные легче сжимать и хранить - длинный массив чисел с плавающей запятой практически не сжимается, но при дискретизации на «высокие», «средние» и «низкие» вы можете сэкономить много места в вашей базе данных. Ваши данные также могут быть из источника, нацеленного на немодельное приложение. Это часто случается, когда я получаю данные от организаций, которые выполняют меньше аналитической работы. Их данные часто используются для отчетности и суммируются на высоком уровне, чтобы помочь с интерпретацией отчетов для неспециалистов. Эти данные все еще могут быть полезны, но часто некоторая мощность теряется.

В чем я вижу меньшую ценность, хотя это возможно, я могу быть исправлен, так это предварительное разбивание непрерывных измерений для целей моделирования. Существует множество очень мощных методов подгонки нелинейных эффектов к непрерывным предикторам, и сгибание лишает вас возможности их использовать. Я склонен рассматривать это как плохую практику.

— Мэтью Друри
источник

4

Согласно статье «высокий уровень в сравнении низкого уровня данных науки» bucketization является

Этап бакетизации (иногда называемый многомерным бинингом) состоит из определения метрик (и комбинаций из 2-3 метрик) с высокой прогнозирующей способностью, их комбинирования и объединения соответствующим образом, чтобы уменьшить дисперсию внутри сегмента при сохранении достаточно больших сегментов.

Поэтому я понимаю, что вы жадно сортируете данные в соответствии с наиболее прогнозируемыми функциями, а затем анализируете подгруппы.

— Артур Б.
источник