Интерпретация площади под кривой PR

В настоящее время я сравниваю три метода, и в качестве метрик я использую точность, auROC и auPR. И у меня есть следующие результаты:

Метод А - согласно: 0,75, auROC: 0,75, AuPR: 0,45

Метод B - согласно: 0,65, auROC: 0,55, AuPR: 0,40

Метод C - согласно: 0,55, auROC: 0,70, AuPR: 0,65

У меня хорошее понимание точности и auROC (чтобы хорошо помнить, я часто пытаюсь придумать предложение типа «auROC = характеризует способность хорошо прогнозировать положительный класс», хотя не совсем правильно, это помогает мне вспомнить). Раньше у меня никогда не было данных auPR, и хотя я понимаю, как они создаются, я не могу понять, что за ними стоит.

На самом деле я не понимаю, почему метод C имеет невероятно высокий балл для auPR, в то время как плохой / средний для точности и auPR.

Если бы кто-то мог помочь мне понять это немного лучше с простым объяснением, которое было бы действительно здорово. Спасибо.

machine-learning roc precision-recall

— AdrienNK
источник

Одна ось кривых ROC и PR одинакова, то есть TPR: сколько положительных случаев было правильно классифицировано из всех положительных случаев в данных.

Другая ось отличается. ROC использует FPR, который является количеством ошибочно объявленных положительных сторон из всех отрицательных значений в данных. Кривая PR использует точность: сколько истинных положительных результатов из всех, которые были предсказаны как положительные. Так что основа второй оси другая. ROC использует то, что находится в данных, PR использует то, что находится в прогнозе в качестве основы.

Кривая PR считается более информативной, когда в данных наблюдается высокий дисбаланс классов, см. Эту статью http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

— inzl
источник

Для auROC 0,5 - это минимум (потому что чем меньше, тем лучше при инвертировании прогноза). Существуют ли похожие правила для auPR? Также в отношении моих измерений: что я могу утверждать, глядя на оценки метода C? Поскольку я работаю с одним и тем же набором данных в 3 случаях и, с моей точки зрения, для набора данных с более или менее равномерным распределением по классам не будет иметь смысла, что auROC и auPR не следуют одному и тому же рейтингу для моего методы.

— AdrienNK

Что такое случайный классификатор баллов в AuPR? Я знаю, что это 0,5 в AuROC, но я не могу знать в AuPR.

— Джек Твен,

Ожидаемый показатель auPR для случайного классификатора - это просто доля истинно положительных случаев в наборе данных. Этой точности вы ожидаете, если будете угадывать класс, и вы получите эту точность для всех уровней отзыва. Таким образом, ожидаемая кривая PR для случайного классификатора - это просто прямоугольник с длинами сторон «пропорция истинных положительных результатов» x 1. Например, если ваш набор данных содержит 10% положительных и 90% отрицательных случаев, ожидаемый случайный auPR равен 0,1.

— Лиззи Сильвер