Подходит ли повышение градиента для данных с низкой частотой событий, таких как 1%?

Я пытаюсь повысить градиент для набора данных с частотой событий около 1%, используя Enterprise miner, но он не дает никакого вывода. Мой вопрос таков: поскольку это подход, основанный на дереве решений, правильно ли использовать градиентное усиление при таком низком событии?

— user2542275
источник

Вы имеете дело с несбалансированным набором данных. Повышение действительно хороший способ справиться с этим. Для получения дополнительной информации см. Stats.stackexchange.com/questions/157940/…

— DaL

Но для меня логистическая регрессия дает лучшие результаты, чем случайный лес или повышение градиента. Я хотел улучшить производительность своей модели, пробуя увеличенные деревья.

— user2542275

Повышение основано на слабых классификаторах. Теоретически, подойдет любой слабый классификатор, который немного лучше случайного. На практике разные алгоритмы больше подходят для некоторых наборов данных, поэтому важен выбранный вами слабый классификатор. Можете ли вы указать больше об используемых вами алгоритмах, их результатах и наборе данных?

— DaL

Хорошо. О наборе данных: размер выборки> 4 м, частота событий = 1,2%. Число предикторов, которые имеют значимое значение р <0,05, составляет 150. Логистическая регрессия с наиболее значимыми переменными дала подъем 3 на 20% населения. Нейронная сеть подвела около 2,8. Повышение градиента не дало никакого результата, пока я не использовал стратифицированную выборку с обратными априорными весами. Но производительность плохая.

— user2542275

Так как ваш набор данных довольно большой, у вас должно быть достаточно выборок вашего класса меньшинства, поэтому проблема связана с относительным дисбалансом. У вас есть довольно много функций, но не слишком много, но дерево решений менее подходит для таких наборов данных. Я предлагаю вам создать сбалансированный набор данных и посмотреть, насколько хорошо ваши алгоритмы работают на нем. Чем вы сможете применить алгоритм к исходному набору данных, как я описал в первом комментарии.

— декабря

(Чтобы дать краткий ответ на это :)

При работе с несбалансированным набором данных хорошо использовать алгоритм повышения градиента. Когда речь идет о сильно несбалансированном наборе данных, гораздо важнее поставить вопрос о пригодности используемой метрики. Мы потенциально должны избегать метрик, таких как точность или повторный вызов, которые основаны на произвольных пороговых значениях, и выбирать метрики, такие как AUCPR или оценка Бриера, которые дают более точную картину - см. Превосходную ветку CV.SE: Почему точность не лучшая мера для оценки моделей классификации? для большего). Точно так же мы могли бы потенциально использовать подход, чувствительный к затратам, назначая различные затраты на неправильную классификацию (например, см. Masnadi-Shirazi & Vasconcelos (2011), Чувствительное к затратам повышениедля общего представления и предлагаемых изменений в известных алгоритмах повышения или для конкретного интересного приложения с более простым подходом проверьте отчет о вызове Хиггса-Бозона для алгоритма XGBoost; Chen & He (2015) « Хиггс Бозон Дискавери с усиленными деревьями» предоставляет более подробную информацию).

Стоит также отметить, что если мы используем вероятностный классификатор (например, GBM), мы можем / должны активно изучать калибровку возвращаемых вероятностей (например, см. Zadrozny & Elkan (2002)). Преобразование баллов классификатора в точные оценки мультиклассовой вероятности или Кулл и др. ( 2017) Бета-калибровка: обоснованное и легко внедряемое улучшение логистической калибровки для бинарных классификаторов ), чтобы потенциально повысить успеваемость наших учащихся. Особенно при работе с несбалансированными данными адекватное отслеживание изменений тенденций может быть более информативным, чем простая маркировка данных. В связи с этим некоторые могут утверждать, что подходы, чувствительные к затратам, не так уж полезны в конечном итоге (например, см. Nikolaou et al. (2016)Чувствительные к затратам алгоритмы повышения: нужны ли они нам? ). Тем не менее, чтобы подтвердить первоначальную точку зрения, алгоритмы повышения не являются плохими по своей природе для несбалансированных данных, и в некоторых случаях они могут предложить очень конкурентоспособный вариант.

— usεr11852
источник

Я считаю, что оценка Бриера эквивалентна метке точности, поэтому будет иметь те же ограничения, что и точность при оценке моделей редких событий.

— RobertF

Оценка Бриера не эквивалентна точности. Обратите внимание, что мы используем прогнозируемую вероятность для расчета показателя Бриера, в то время как для расчета точности мы используем метки, основанные на жестком пороге прогнозируемых вероятностей.

— usεr11852

Спасибо за разъяснение - использование предполагаемой вероятности, а не 0/1 для предсказанного класса имеет больше смысла.

— RobertF

Здорово. Я рад, что мы с этим разобрались! :)

— usεr11852