Вопрос довольно расплывчатый, поэтому я собираюсь предположить, что вы хотите выбрать подходящий показатель производительности для сравнения разных моделей. Для хорошего обзора ключевых различий между кривыми ROC и PR вы можете обратиться к следующему документу: «Отношения между точным восстановлением и кривыми ROC » Дэвиса и Гоудрича .
Процитирую Дэвиса и Гоадрича:
Однако при работе с сильно искаженными наборами данных кривые Precision-Recall (PR) дают более информативную картину производительности алгоритма.
FPR=FPFP+TN,TPR=TPTP+FN.
recall=TPTP+FN=TPR,precision=TPTP+FP
FP
Кривые точного возврата лучше выделить различия между моделями для сильно несбалансированных наборов данных. Если вы хотите сравнить разные модели в несбалансированных настройках, область под кривой PR, вероятно, будет демонстрировать большие различия, чем область под кривой ROC.
Тем не менее, кривые ROC встречаются гораздо чаще (даже если они менее подходят). В зависимости от вашей аудитории, кривые ROC могут быть лингва франкой, поэтому их использование, вероятно, является более безопасным выбором. Если одна модель полностью доминирует над другой в пространстве PR (например, всегда имеет более высокую точность во всем диапазоне отзыва), она также будет доминировать в пространстве ROC. Если кривые пересекаются в одном пространстве, они также пересекаются в другом. Другими словами, основные выводы будут одинаковыми независимо от того, какую кривую вы используете.
Бесстыдная реклама . В качестве дополнительного примера вы можете взглянуть на одну из моих работ, в которой я сообщаю как кривые ROC, так и PR в несбалансированном виде. Рисунок 3 содержит кривые ROC и PR для идентичных моделей, четко показывая разницу между ними. Чтобы сравнить площадь под PR и площадь под ROC, вы можете сравнить таблицы 1-2 (AUPR) и таблицы 3-4 (AUROC), где вы можете видеть, что AUPR показывает гораздо большие различия между отдельными моделями, чем AUROC. Это еще раз подчеркивает пригодность кривых PR.