(Чтобы дать краткий ответ на это :)
При работе с несбалансированным набором данных хорошо использовать алгоритм повышения градиента. Когда речь идет о сильно несбалансированном наборе данных, гораздо важнее поставить вопрос о пригодности используемой метрики. Мы потенциально должны избегать метрик, таких как точность или повторный вызов, которые основаны на произвольных пороговых значениях, и выбирать метрики, такие как AUCPR или оценка Бриера, которые дают более точную картину - см. Превосходную ветку CV.SE: Почему точность не лучшая мера для оценки моделей классификации? для большего). Точно так же мы могли бы потенциально использовать подход, чувствительный к затратам, назначая различные затраты на неправильную классификацию (например, см. Masnadi-Shirazi & Vasconcelos (2011), Чувствительное к затратам повышениедля общего представления и предлагаемых изменений в известных алгоритмах повышения или для конкретного интересного приложения с более простым подходом проверьте отчет о вызове Хиггса-Бозона для алгоритма XGBoost; Chen & He (2015) « Хиггс Бозон Дискавери с усиленными деревьями» предоставляет более подробную информацию).
Стоит также отметить, что если мы используем вероятностный классификатор (например, GBM), мы можем / должны активно изучать калибровку возвращаемых вероятностей (например, см. Zadrozny & Elkan (2002)). Преобразование баллов классификатора в точные оценки мультиклассовой вероятности или Кулл и др. ( 2017) Бета-калибровка: обоснованное и легко внедряемое улучшение логистической калибровки для бинарных классификаторов ), чтобы потенциально повысить успеваемость наших учащихся. Особенно при работе с несбалансированными данными адекватное отслеживание изменений тенденций может быть более информативным, чем простая маркировка данных. В связи с этим некоторые могут утверждать, что подходы, чувствительные к затратам, не так уж полезны в конечном итоге (например, см. Nikolaou et al. (2016)Чувствительные к затратам алгоритмы повышения: нужны ли они нам? ). Тем не менее, чтобы подтвердить первоначальную точку зрения, алгоритмы повышения не являются плохими по своей природе для несбалансированных данных, и в некоторых случаях они могут предложить очень конкурентоспособный вариант.