Я только что закончил читать эту дискуссию. Они утверждают, что PR AUC лучше, чем ROC AUC по несбалансированному набору данных.
Например, у нас есть 10 образцов в тестовом наборе данных. 9 образцов положительные и 1 отрицательный. У нас ужасная модель, которая предсказывает все положительное. Таким образом, у нас будет метрика: TP = 9, FP = 1, TN = 0, FN = 0.
Тогда Precision = 0,9, Recall = 1,0. Точность и отзыв очень высоки, но у нас плохой классификатор.
С другой стороны, TPR = TP / (TP + FN) = 1,0, FPR = FP / (FP + TN) = 1,0. Поскольку FPR очень высокий, мы можем определить, что это не очень хороший классификатор.
Очевидно, что ROC лучше, чем PR для несбалансированных наборов данных. Может кто-нибудь объяснить, почему пиар лучше?