Способ расчета ППК-ROC является сюжет из ТСО и FPR как порог, изменяется и вычислить площадь под этой кривой. Но почему эта область под кривой такая же, как эта вероятность? Давайте предположим следующее:τ
- A - это распределение баллов, которое модель дает для точек данных, которые фактически находятся в положительном классе.
- В - это распределение баллов, которое модель дает для точек данных, которые на самом деле относятся к отрицательному классу (мы хотим, чтобы это было слева от ).A
- τ - порог отсечки. Если точка данных получает оценку выше этой, она предсказывается как принадлежащая к положительному классу. В противном случае прогнозируется отрицательный класс.
Обратите внимание, что TPR (напоминание) определяется как: а FPR (выпадение) -: .п( A > τ)P(B>τ)
Теперь мы построим TPR на оси у и РСП на оси х, нарисуйте кривую для различных и вычислить площадь под этой кривой ( ).τAUC
Мы получаем:
AUC=∫10TPR(x)dx=∫10P(A>τ(x))dx
где - FPR. Теперь одним из способов вычисления этого интеграла является рассмотрение как принадлежащего равномерному распределению. В этом случае это просто становится ожиданием .
xxTPR
AUC=Ex[P(A>τ(x))](1)
если мы рассмотрим .
x∼U[0,1)
Теперь здесь был толькоxFPR
x=FPR=P(B>τ(x))
Поскольку мы рассматривали как равномерное распределение,
x
P(B>τ(x))∼U
=>P(B<τ(x))∼(1−U)∼U
=>FB(τ(x))∼U(2)
Но мы знаем из обратного преобразования закон , что для любой случайной величины , если , то . Это следует из того, что взятие любой случайной величины и применение к ней собственного CDF приводит к униформе.XFX(Y)∼UY∼X
FX(X)=P(FX(x)<X)=P(X<F−1X(X))=FXF−1X(X)=X
и это верно только для равномерного.
Использование этого факта в уравнении (2) дает нам:
τ(x)∼B
Подставляя это в уравнение (1), получаем:
AUC=Ex(P(A>B))=P(A>B)
Другими словами, область под кривой - это вероятность того, что случайная положительная выборка будет иметь более высокий балл, чем случайная отрицательная выборка.