Войтек Дж. Кржановски и Дэвид Дж. Кривые ROC для непрерывных данных (2009) - отличный справочник для всего, что связано с кривыми ROC. Он собирает воедино ряд результатов, что является разочаровывающей широкой литературной базой, которая часто использует различную терминологию для обсуждения одной и той же темы.
Кроме того, эта книга предлагает комментарии и сравнения альтернативных методов, которые были получены для оценки одних и тех же величин, и указывает на то, что некоторые методы делают предположения, которые могут быть несостоятельными в определенных контекстах. Это один из таких контекстов; в других ответах сообщается о методе Hanley & McNeil, который предполагает бинормальную модель для распределения баллов, что может быть неуместно в случаях, когда распределение баллов по классам не является (близко к) нормальным. Предположение о нормально распределенных оценках кажется особенно неуместным в современных условиях машинного обучения , типичные общие модели, такие как xgboost, имеют тенденцию давать оценки с распределением «ванной» для задач классификации (то есть распределений с высокой плотностью в крайних значениях около 0 и 1). ).
Вопрос 1 - AUC
В разделе 6.3 обсуждается сравнение ROC AUC для двух кривых ROC (стр. 113-114). В частности, я понимаю, что эти две модели будут коррелированы, поэтому информация о том , как вычислитьr имеет решающее значение здесь; в противном случае ваша тестовая статистика будет смещена, поскольку она не учитывает вклад корреляции.
Для случая некоррелированных кривых ROC, не основанных на каких-либо параметрических предположениях о распределении, статистика для тестов и доверительных интервалов, сравнивающих AUC, может быть непосредственно основана на оценках и ^ AUC 2 значений AUC и оценках их стандартных отклонений S 1 и S 2 , как указано в разделе 3.5.1:AUCˆ1AUCˆ2S1S2
Z=AUCˆ1−AUCˆ2S21+S22−−−−−−−√
Чтобы распространить такие тесты на случай, когда для обоих классификаторов используются одни и те же данные, нам необходимо учесть корреляцию между оценками AUC:
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
где - оценка этой корреляции. Hanley и McNeil (1983) сделали такое расширение, основав свой анализ на бинормальном случае, но дали только таблицу, показывающую, как рассчитать расчетный коэффициент корреляции r из корреляции r P двух классификаторов в классе P и корреляции r n из двух классификаторов в классе N, говоря, что математический вывод был доступен по запросу. Различные другие авторы (например, Zou, 2001) разработали тесты, основанные на бинормальной модели, предполагая, что может быть найдено соответствующее преобразование, которое будет одновременно преобразовывать распределения баллов классов P и N в нормальное состояние.rrrPrn
Делонг и др. (1988) воспользовались тождеством между AUC и тестовой статистикой Манна-Уитни, а также результатами теории обобщенной -статистики по Сену (1960), чтобы получить оценку корреляции между AUC, которая не полагается на бинормальное предположение. Фактически, ДеЛонг и др. (1988) представили следующие результаты для сравнения между k ≥ 2 классификаторами.Uk≥2
В разделе 3.5.1 мы показали, что площадь под эмпирической кривой ROC была равна -статистике Манна-Уитни и была заданаU
гдеsPi,i=1,…,nP- оценка дляобъектовклассаP,аsNj,j=1,…,nN- оценка дляобъектовклассаPобъектыклассаNв образце. Предположим, что у нас естьkклассификаторов, которые дают оценкиs r N j ,
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,…,nPPsNj,j=1,…,nNNk и s r P i , j = 1 , … , n P [я исправил ошибку индексации в этой части - Sycorax] и ^ A U C r , r = 1 , … , k . определятьsrNj,j=1…nNsrPi,j=1,…,nPAUCˆr,r=1,…,k
и
V r 01 =1
Vr10=1nN∑j=1nN[I(srPi>srNj)+12I(srPi=srNj)],i=1,…,nP
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
затем определим матрицу W 10 с ( r , s ) -ым элементом
w r , s 10 = 1k×kW10(r,s)
ик×KматрицаW01с(r,s)-м элементом
w r
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
k×kW01(r,s)
Тогда оцененная ковариационная матрица для вектора( ^ A U C 1,…, ^ A U C kwr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
расчетных площадей под кривыми составляет
W = 1(AUCˆ1,…,AUCˆk)с элементамиwr,s. Это обобщение результата для оценочной дисперсии одного оцененного AUC, также приведенного в разделе 3.5.1. В случае двух классификаторов оценочная корреляцияrмежду оцененными AUC, таким образом, определяется какw1,2.W=1nPW10+1nNW01
wr,sr которые можно использовать вzвыше.w1,2w1,1w2,2√z
Поскольку другие ответы дают выражения Хенли и Макнеила для оценщиков дисперсии AUC, здесь я воспроизведу оценку Делонга из p. 68:
sss1−F(s)s1−G(s)sNisPNisNivar(sNPi)
AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
FGFG
Zz
Это упрощенное общее описание того, как работает проверка гипотез:
Проверка, по вашим словам, «является ли один классификатор значительно лучше другого» может быть перефразирована как проверка нулевой гипотезы о том, что две модели имеют статистически равные значения AUC, против альтернативной гипотезы о том, что статистика неравна.
Это двусторонний тест.
Мы отвергаем нулевую гипотезу, если тестовая статистика находится в критической области эталонного распределения, которое в этом случае является стандартным нормальным распределением.
αz>1.96z<−1.96α/21−α/2
Вопрос 1 - Чувствительность и специфичность
t
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
Основным камнем преткновения является разработка соответствующего теста, учитывая, что две пропорции образца будут коррелированы (поскольку вы применили две модели к одним и тем же данным теста). Об этом говорится на с. 111.
tpfpt(tp1−tp2)/s12tpiis212tp1tp2
tp1tp2
N
tp1=tp2tp1≠tp2
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
M=(b−c)2b+c
χ21α=95%M>3.841459
srPisrNj
вопрос 2
Кажется, что достаточно объединить результаты путем усреднения значений прогнозирования для каждого респондента, так что для каждой модели у вас есть 1 вектор из 100 усредненных прогнозируемых значений. Затем вычислите ROC AUC, статистику чувствительности и специфичности как обычно, как если бы исходные модели не существовали. Это отражает стратегию моделирования, которая рассматривает каждую из 5 моделей респондентов как один из «комитетов» моделей, что-то вроде ансамбля.