вам нужно бороться с дисбалансом классов, если / потому что это делает вашу модель лучше (на невидимых данных). «Лучше» - это то, что вы должны определить сами. Это может быть точность, это может быть стоимость, это может быть истинный положительный показатель и т. Д.
Есть тонкий нюанс, который важно понять, когда речь идет о дисбалансе класса. А именно, несбалансированы ли ваши данные, потому что:
- распределение данных само по себе несбалансировано
В некоторых случаях один класс встречается гораздо чаще, чем другой. И это нормально. В этом случае вы должны посмотреть, являются ли некоторые ошибки более дорогостоящими, чем другие. Это типичный пример выявления смертельных заболеваний у пациентов, выяснения, является ли кто-то террористом и т. Д. Это восходит к короткому ответу. Если некоторые ошибки стоят дороже, чем другие, вы захотите «наказать» их, заплатив им более высокую цену. Следовательно, лучшая модель будет иметь меньшую стоимость. Если все ошибки такие же плохие, то нет реальной причины, по которой вам следует использовать чувствительные к стоимости модели.
Также важно отметить, что использование чувствительных к затратам моделей не относится только к несбалансированным наборам данных. Вы можете использовать такие модели, если ваши данные также идеально сбалансированы.
- это не представляет истинное распределение данных
Иногда ваши данные «несбалансированы», потому что они не отражают истинное распределение данных. В этом случае вы должны быть осторожны, потому что у вас есть «слишком много» примеров одного класса и «слишком мало» другого, и, следовательно, вы должны убедиться, что ваша модель не превышает / не подходит для одного из этих классов.
Это отличается от использования затрат, потому что не может быть так, что одна ошибка хуже другой. Что произойдет, так это то, что вы будете предвзяты, и для вашей модели будет не выгодно, если невидимые данные не будут иметь такое же распределение, как и данные, на которых вы тренировались.
Допустим, я даю вам тренировочные данные, и ваша цель - угадать, красный или синий. Неважно, принимаете ли вы синий за красный или красный за синий. Ваши тренировочные данные имеют 90% красных случаев, когда в реальной жизни они случаются только в 10% случаев. Вы должны были бы иметь дело с этим, чтобы сделать вашу модель лучше.