Я не уверен, что получил вопрос, но так как название требует объяснения кривых ROC, я попробую.
Кривые ROC используются для определения того, насколько хорошо ваш классификатор может разделять положительные и отрицательные примеры, и для определения наилучшего порога для их разделения.
Чтобы иметь возможность использовать кривую ROC, ваш классификатор должен быть ранжирован, то есть он должен иметь возможность ранжировать примеры таким образом, чтобы те, у кого более высокий ранг, с большей вероятностью были положительными. Например, Логистическая регрессия выводит вероятности, которые можно использовать для ранжирования.
Рисование ROC кривой
Учитывая набор данных и классификатор ранжирования:
- упорядочить тестовые примеры по шкале от самой высокой до самой низкой
- начать с(0,0)
- для каждого примера в отсортированном порядке
x
- если положительный, переместите вверхx1/pos
- если отрицателен, переместите вправоx1/neg
где и - это доли положительных и отрицательных примеров соответственно.posneg
Эта хорошая анимированная картинка должна проиллюстрировать этот процесс
На этом графике ось - истинно положительная скорость, а ось - ложноположительная скорость. Обратите внимание на диагональную линию - это базовая линия, которую можно получить с помощью случайного классификатора. Чем дальше наша кривая ROC выше линии, тем лучше.yx
Площадь под РПЦ
Область под кривой ROC (заштрихована), естественно, показывает, насколько далеко кривая от базовой линии. Для базовой линии это 0,5, а для идеального классификатора - 1.
Вы можете прочитать больше об AUC ROC в этом вопросе: что означает AUC и что это такое?
Выбор лучшего порога
Я кратко опишу процесс выбора наилучшего порога, и более подробную информацию можно найти в справочнике.
Чтобы выбрать лучший порог, вы видите каждую точку вашей кривой ROC в качестве отдельного классификатора. Этот мини-классификатор использует оценку, полученную баллом, как границу между + и - (т.е. он классифицируется как + все баллы выше текущего)
В зависимости от положительного / отрицательного коэффициента в нашем наборе данных - параллельно базовой линии в случае 50% / 50% - вы строите линии точности ISO и выбираете одну из них с максимальной точностью.
Вот иллюстрация, которая иллюстрирует это, и для деталей я снова приглашаю вас к ссылке
Ссылка