Как выбрать метрику ошибки при оценке классификатора?

15

Я видел разные метрики ошибок, используемые в соревнованиях Kaggle: RMS, среднее значение, AUC и другие. Каково общее правило выбора метрики ошибки, т. Е. Как узнать, какую метрику ошибки использовать для данной проблемы? Есть ли рекомендации?

machine-learning classification error

— Вишал
источник

12

Пул метрик ошибок, которые вы можете выбрать, различается между классификацией и регрессией. В последнем случае вы пытаетесь предсказать одно непрерывное значение, а с помощью классификации вы предсказываете отдельные классы, такие как «здоровый» или «не здоровый». Из приведенных вами примеров среднеквадратическая ошибка будет применима для регрессии и AUC для классификации с двумя классами.

Позвольте мне рассказать вам немного подробнее о классификации. Вы упомянули AUC в качестве меры, которая является областью под кривой ROC, который обычно применяется только к задачам двоичной классификации с двумя классами. Хотя существуют способы построения кривой ROC для более чем двух классов, они теряют простоту кривой ROC для двух классов. Кроме того, кривые ROC могут быть построены только в том случае, если выбранный классификатор выдает какую-то оценку, связанную с каждым прогнозом. Например, логистическая регрессия даст вам вероятности для каждого из двух классов. В дополнение к своей простоте кривые ROC имеют то преимущество, что на них не влияет соотношение между положительно и отрицательно помеченными экземплярами в ваших наборах данных, и они не заставляют вас выбирать порог. Тем не менее, рекомендуется смотреть не только на кривую ROC, но и на другие визуализации. Я бы порекомендовал взглянуть на кривые точного возврата и кривые стоимости.одно истинное измерение ошибок, у всех них есть свои сильные и слабые стороны.

Литература, которую я нашел полезной в этом отношении:

Фосетт Т. (2006). Введение в анализ РПЦ . Письма о распознавании образов, 27 (8), 861–874.
Drummond, C. & Holte, R. (2006). Кривые затрат: улучшенный метод визуализации производительности классификатора . Машинное обучение, 65 (1), 95–130
Parker, C. (2011). Анализ показателей эффективности для двоичных классификаторов . 2011 IEEE 11-я Международная конференция по интеллектуальному анализу данных (стр. 517–526)
Davis, J. & Goadrich, M. (2006). Соотношение между кривыми Precision-Recall и ROC . Материалы 23-й международной конференции по машинному обучению (с. 233–240). Нью-Йорк, штат Нью-Йорк, США: ACM

Если ваш классификатор не дает какой-либо оценки, вы должны вернуться к основным показателям, которые можно получить из путаницы, содержащей количество истинных положительных результатов, ложных срабатываний, истинных отрицательных и ложных отрицательных. Упомянутые выше визуализации (ROC, точность-отзыв, кривая затрат) основаны на этих таблицах, полученных с использованием другого порога оценки классификатора. Наиболее популярная мера в этом случае, вероятно, F1-мера $N$ $N \times N$ $N$ $2 \times 2$ $A$ $A$

— sebp
источник

1

N

$N$

N \times N

$N \times N$

N

$N$

2 \times 2

$2\times2$

Большое спасибо за указание на эту ошибку, я исправил ее в ответе выше.

— sebp

5

Позвольте мне добавить еще несколько мыслей к уже существующим ответам.

большинство классификаторов фактически имеют промежуточный непрерывный балл, к которому обычно применяется порог для назначения жестких классов (ниже t: класс a, выше: класс b). Варьирование этого порога приводит к РПЦ.
В общем случае не стоит сжимать такую кривую в одно число. см., например, «Дело против оценки точности для сравнения алгоритмов индукции»
Существует множество различных ROC, имеющих одинаковый AUC, и полезность может варьироваться в широких пределах для данного приложения.
наоборот: выбор порога может быть в значительной степени определен приложением, которое у вас есть.
Вам не нужно смотреть на производительность классификатора за пределами этих границ, и если вы выбираете одну метрику, это должно по крайней мере суммировать только соответствующий диапазон ограниченных других метрик.
в зависимости от вашего плана исследования, общая доля правильно или неправильно классифицированных образцов может быть подходящей сводкой или нет, и выводы, которые вы можете сделать из этого, также будут зависеть от плана исследования: отражают ли данные вашего теста априорные вероятности (распространенность) классы? Для населения, на котором должен использоваться ваш классификатор? Был ли он собран стратифицированным образом? Это тесно связано с тем фактом, что большинство пользователей классификатора больше интересуются прогностическими значениями, но чувствительность и специфичность гораздо легче измерить.
Вы спрашиваете об общих рекомендациях. Одно общее правило, что вам нужно знать
- какой тип производительности вам нужен (чувствительность, специфичность, прогнозные значения и т. д., ответьте на конкретные вопросы о поведении вашего классификатора, посмотрите, что я написал здесь ).
- Какие допустимые рабочие диапазоны для этих характеристик производительности для вашего приложения?
  Они могут варьироваться в широких пределах: вы можете согласиться с некоторыми ложными отрицаниями при обнаружении спама, но это не будет приемлемой установкой для диагностики ВИЧ ...

Я думаю, что вы не сможете найти полезную метрику, если не сможете ответить на эти вопросы.

Это немного похоже на то, что в проверке классификатора нет бесплатного обеда.

— cbeleites поддерживает Монику
источник

2

Ожидаемая ошибка ошибочной классификации - метод, который я использовал и видел чаще всего. AUC РПЦ является мерой набора правил классификации. Если идея состоит в том, чтобы сравнить определенный классификатор с другим, то AUC не подходит. Некоторая форма ошибки классификации имеет наибольший смысл, поскольку она наиболее непосредственно отражает эффективность правила классификации.

Большая работа была проделана в поиске хороших оценок частоты ошибок классификации из-за большого смещения оценки повторного замещения и высокой дисперсии одноразового использования. Начальная загрузка и гладкие оценки были учтены. См., Например, статью Эфрона в JASA 1983 об улучшениях начальной загрузки по сравнению с перекрестной проверкой.

Вот технический доклад Стэнфордского университета за 1995 год, подготовленный Эфроном и Тибширами, в котором обобщается литература, включая некоторые из моих собственных работ.

— Майкл Р. Черник
источник

Сравнение производительности двух классификаторов в одном наборе данных - это еще одна тема для обсуждения. В частности, в случае ROC и AUC существует несколько методов для сравнения кривых ROC в целом или оценок AUC. Это по сути статистические тесты с нулевой гипотезой, что ROC / AUC не отличается. Перекрестная проверка и начальная загрузка - еще одна интересная тема, недавно я увидел статью ( dx.doi.org/10.1016/j.csda.2010.03.004 ) об этом. Я думаю, если вы рассмотрите все аспекты одновременно, это может стать довольно пугающим.

— sebp