Я имею дело с проблемой обнаружения мошенничества (кредитной оценки). Таким образом, существует очень несбалансированная связь между мошенническими и не мошенническими наблюдениями.
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html предоставляет большой обзор различных метрик классификации. Precision and Recall
или kappa
оба кажутся хорошим выбором:
Один из способов оправдать результаты таких классификаторов - это сравнить их с результатами базовых классификаторов и показать, что они действительно лучше, чем предсказания случайных случайностей.
Насколько я понимаю, здесь kappa
может быть немного лучший выбор, так как случайный шанс учитывается. Из каппы Коэна на простом английском языке я понимаю, что kappa
имеет дело с концепцией получения информации:
[...] Наблюдаемая Точность 80% намного менее впечатляет с Ожидаемой Точностью 75% по сравнению с Ожидаемой Точностью 50% [...]
Поэтому мои вопросы будут такими:
- Правильно ли считать,
kappa
что метрика классификации лучше подходит для этой проблемы? kappa
Предотвращает ли простое использование негативное влияние дисбаланса на алгоритм классификации? Требуется ли повторная (понижающая / повышающая) выборка или обучение на основе затрат (см. Http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )?