Функция ROC (это не обязательно кривая) позволяет оценить способность распознавания, обеспечиваемую конкретной статистической моделью (состоящей из предикторной переменной или их набора).
Основное соображение ROCs заключается в том, что предсказания модели не только вытекают из способности модели различать / делать предсказания на основе данных, представленных переменными предиктора. Также работает критерий ответа, который определяет, сколько доказательств необходимо для модели, чтобы предсказать ответ, и каков результат этих ответов. Значение, установленное для критериев ответа, будет сильно влиять на предсказания модели и, в конечном счете, на тип ошибок, которые она допустит.
Рассмотрим общую модель с переменными предиктора и критериями ответа. Эта модель пытается предсказать Присутствие X, отвечая Да или Нет. Итак, у вас есть следующая матрица путаницы:
**X present X absent**
**Model Predicts X Present** Hit False Alarm
**Model Predicts X Absent** Miss Correct Rejection
В этой матрице вам нужно только учитывать соотношение ударов и ложных срабатываний (потому что остальные могут быть получены из них, учитывая, что они имеют от 1 до 1). Для каждого критерия ответа у вас будет другая матрица путаницы. Ошибки (пропуски и ложные тревоги) отрицательно связаны, что означает, что критерий ответа, который сводит к минимуму ложные тревоги, максимизирует пропуски и наоборот. Сообщение: нет бесплатного обеда.
Таким образом, чтобы понять, насколько хорошо модель распознает случаи / делает прогнозы, независимо от установленных критериев ответа, вы наносите на график показатели Hits и False, полученные по всему диапазону возможных критериев ответа.
На этом графике вы получаете функцию ROC. Область под функцией обеспечивает объективную и непараметрическую меру способности модели различать. Эта мера очень важна, потому что она свободна от каких-либо ошибок, которые могли быть вызваны критериями ответа.
Вторым важным аспектом является то, что, анализируя функцию, можно определить, какие критерии реагирования лучше подходят для ваших целей. Какие типы ошибок вы хотите избежать, и какие ошибки в порядке. Например, рассмотрим тест на ВИЧ: это тест, который ищет какие-то доказательства (в данном случае антитела) и делает дискриминацию / прогноз, основанный на сравнении данных с критерием ответа. Этот критерий ответа обычно устанавливается очень низким, чтобы вы минимизировали пропуски. Конечно, это приведет к большему количеству ложных тревог, которые имеют стоимость, но стоимость, которая незначительна по сравнению с пропусками.
С помощью ROC вы можете оценить способность некоторых моделей различать, независимо от критериев ответа, а также установить оптимальные критерии ответа, учитывая потребности и ограничения того, что вы измеряете. Такие тесты, как hi-square, не могут помочь в этом, потому что даже если ваши тесты, если прогнозы находятся на уровне шансов, много разных пар Hit-False Alarm соответствуют уровню шансов.
Некоторые структуры, такие как теория обнаружения сигналов, априори предполагают, что доказательства, доступные для дискриминации, имеют конкретное распределение (например, нормальное распределение или гамма-распределение). Когда эти предположения верны (или довольно близки), доступны некоторые действительно хорошие меры, которые облегчают вашу жизнь.
надеюсь, что это поможет вам понять преимущества РПЦ