Выше ответы оба хороши.
Sk e w = n e gт я v ее х а м р л е ср а O сек я т я против ее х а м р л е с
С несбалансированными данными AUC по-прежнему дает вам приблизительную стоимость около 0,8. Тем не менее, он высокий из-за большого FP, а не большого TP (истинно положительный).
Такой как пример ниже,
TP=155, FN=182
FP=84049, TN=34088
Поэтому, когда вы используете AUC для измерения производительности классификатора, проблема заключается в том, что увеличение AUC на самом деле не отражает лучший классификатор. Это просто побочный эффект слишком многих негативных примеров. Вы можете просто попробовать в вашем наборе данных.
Fβ= ( 1 + β2) ⋅ р г е с я с я о п ⋅ г е с л л( β2⋅ р т е с я с я о п ) + г е с л л
β
Тогда мои предложения по несбалансированным данным похожи на этот пост . Вы также можете попробовать таблицу децилей, которую можно построить, выполнив поиск "Таблицы классификации и децилла два на два". Между тем я тоже изучаю эту проблему и буду лучше ее измерять.