Классификационные / оценочные показатели для сильно несбалансированных данных


22

Я имею дело с проблемой обнаружения мошенничества (кредитной оценки). Таким образом, существует очень несбалансированная связь между мошенническими и не мошенническими наблюдениями.

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html предоставляет большой обзор различных метрик классификации. Precision and Recallили kappaоба кажутся хорошим выбором:

Один из способов оправдать результаты таких классификаторов - это сравнить их с результатами базовых классификаторов и показать, что они действительно лучше, чем предсказания случайных случайностей.

Насколько я понимаю, здесь kappaможет быть немного лучший выбор, так как случайный шанс учитывается. Из каппы Коэна на простом английском языке я понимаю, что kappaимеет дело с концепцией получения информации:

[...] Наблюдаемая Точность 80% намного менее впечатляет с Ожидаемой Точностью 75% по сравнению с Ожидаемой Точностью 50% [...]

Поэтому мои вопросы будут такими:

  • Правильно ли считать, kappaчто метрика классификации лучше подходит для этой проблемы?
  • kappaПредотвращает ли простое использование негативное влияние дисбаланса на алгоритм классификации? Требуется ли повторная (понижающая / повышающая) выборка или обучение на основе затрат (см. Http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )?

Выборка данных вверх / вниз - это то, что вы должны делать, когда обучающие данные приводят к несбалансированности ваших данных и иногда могут помочь предотвратить игнорирование классификаторами классов меньшинства. Неправильно (и немного мошеннически) использовать передискретизированные данные при оценке вашего классификатора - вы будете сообщать о производительности, которой нет у вашего классификатора, когда он применяется к образцу, идентично распределенному с вашими исходными тестовыми данными.
user48956

Ответы:


10

Да, ваши предположения о Каппе кажутся правильными. Каппа как единичные скалярные метрики, в основном, имеет преимущество перед другими единичными скалярными метриками, такими как точность, которая не будет отражать эффективность прогнозирования для более мелких классов (в тени от производительности любого гораздо большего класса). Как вы указали, Каппа решает эту проблему более элегантно.

Использование показателя типа Kappa для измерения вашей производительности не обязательно повысит соответствие вашей модели данным. Вы можете измерить производительность любой модели, используя ряд метрик, но то, как модель соответствует данным, определяется с помощью других параметров (например, гиперпараметров). Таким образом, вы можете использовать, например, Kappa для выбора наиболее подходящего типа модели и гиперпараметризации среди множества вариантов решения для вашей очень несбалансированной проблемы - но простое вычисление самой Kappa не изменит то, как ваша модель соответствует вашим несбалансированным данным.

Для различных показателей: помимо Каппа и точности / отзыва, также обратите внимание на кривые TPR / TNR с истинным положительным и истинным отрицательным значением, а также на кривые ROC и площадь под кривой AUC. Какие из них полезны для вашей проблемы, в основном зависит от деталей вашей цели. Например, различная информация, отраженная в TPR / TNR и точности / отзыве: ваша цель состоит в том, чтобы высокая доля мошенничества фактически выявлялась как таковая, а высокая доля законных транзакций выявлялась как таковая, и / или минимизировалась доля ложных тревог (которые вы, естественно, получите "в массовом порядке" с такими проблемами) во всех тревогах?

Для повышения / понижения выборки: я думаю, что нет никакого канонического ответа на вопрос «если таковые требуются». Они являются еще одним способом адаптации вашей проблемы. Технически: да, вы могли бы использовать их, но используйте их осторожно, особенно с повышением частоты дискретизации (вы можете в конечном итоге создать нереалистичные сэмплы, не заметив этого) - и помните, что изменение частоты сэмплов обоих классов на что-то нереалистичное "в дикой природе" "может оказать негативное влияние на эффективность прогнозирования. По крайней мере, последний, длительный тестовый набор должен снова отражать реальную частоту образцов. Итог: я видел оба случая, когда выполнение и не повышение или понижение частоты дискретизации приводили к лучшим конечным результатам, так что это то, что вам может понадобиться попробовать (но не манипулируйте вашими тестовыми наборами)! ,


Но является ли подход, основанный на затратах, такой как DOI 10.1109 / ICMLA.2014.48, более подходящим, поскольку учитывается общее влияние на бизнес?
Георг Хейлер

15

Помимо AUC и каппы Кохонена, которые уже обсуждались в других ответах, я также хотел бы добавить несколько метрик, которые я нашел полезными для несбалансированных данных. Они оба связаны с точностью и отзывом . Потому что, усредняя их, вы получаете метрическое взвешивание s и оба типа ошибок ( и ):TпFпFN

  • F1 балл , который является средним гармоническим из точности и отзыва .
  • G-мера , которая является средней геометрическим от точности и отзыва . По сравнению с F1, я нашел это немного лучше для несбалансированных данных.
  • Индекс Жакара , который вы можете рассматривать как . Это метрика, которая сработала для меня лучше всего.Tп/(Tп+Fп+FN)

Примечание. Для несбалансированных наборов данных лучше всего, чтобы ваши метрики были усреднены по макросам .


1
Что вы подразумеваете под «лучше», когда ссылаетесь на G-меру и индекс Жакара?
Нарфанар

8

Для несбалансированных наборов данных показатель средней точности иногда является лучшей альтернативой AUROC. Оценка AP - это область под кривой точного отзыва.

Вот обсуждение с некоторым кодом (Python)

Вот бумага .

Также см. Кривые точности-отзыва-усиления Питера Флаха , а также обсуждение недостатков кривых AP.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.