Измерение производительности различных классификаторов с различными размерами выборки


12

В настоящее время я использую несколько различных классификаторов для различных сущностей, извлеченных из текста, и использую точность / отзыв в качестве сводки того, насколько хорошо работает каждый отдельный классификатор в данном наборе данных.

Мне интересно, есть ли реальный способ сравнения производительности этих классификаторов подобным образом, но который также учитывает общее количество каждого объекта в тестовых данных, которые классифицируются?

В настоящее время я использую точность / отзыв как меру производительности, поэтому может иметь что-то вроде:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

Однако набор данных, на котором я работаю, может содержать 100 тыс. Человек, 5 тыс. Компаний, 500 сыров и 1 яйцо.

Так есть ли сводная статистика, которую я могу добавить к приведенной выше таблице, которая также учитывает общее количество каждого элемента? Или есть какой-то способ измерить тот факт, что, например, 100% предварительная / обратная запись по классификатору Egg может не иметь смысла только с одним элементом данных?

Допустим, у нас было сотни таких классификаторов, я думаю, что я ищу хороший способ ответить на вопросы типа «Какие классификаторы не работают? Какие классификаторы испытывают недостаток в достаточных тестовых данных, чтобы сказать, что они не выполняют?».


Если у вас есть разные классификаторы, обученные на разных наборах данных, как вы можете сравнить их осмысленно? На ум приходят яблоки и апельсины, мел и сыр. Кроме того, если у вас есть мультиклассовые классификаторы, как вы рассчитываете точность и отзыв? Даже знание N = 1 не обязательно полезно - если в мире есть только одно яйцо, ваш классификатор яиц в порядке.
Бык

Это разные классификаторы, обученные для одних и тех же наборов данных, например, мы знаем, что у нас есть документ, касающийся яблок и апельсинов, поэтому мы запускаем классификатор яблок, чтобы определить тип яблока, о котором идет речь, и классификатор апельсина, чтобы определить тип апельсина. это говорит о. Если в наших документах содержится 99% об яблоках, 1% об апельсинах, и оба классификатора имеют одинаковые значения «предварительная / обратная» (суммирование строк / столбцов по матрице путаницы), есть ли какая-либо информация, которую мы можем представить, которая учитывает различия в количествах каждого ? (может быть, нет, это не тот ответ, который я был бы рад)
Дейв Чаллис

Ответы:


5

Вам нужно взглянуть на доверительный интервал статистики. Это помогает измерить степень неопределенности в статистике, которая в значительной степени зависит от размера выборки.


2

На мой взгляд, трудно сравнивать производительность, когда есть такая большая разница в размере. По этой ссылке (пожалуйста, проверьте это здесь, в Википедии http://en.wikipedia.org/wiki/Effect_size ), вы можете увидеть различные стратегии.

Тот, который я предлагаю, связан с дисперсией. Например, рассмотрим производительность классификатора (100%) и классификатора персонала (65%). Минимальная ошибка, которую вы совершаете с помощью первого классификатора, составляет 100%. Однако минимальная ошибка, которую вы можете совершить с помощью последнего классификатора, составляет 10e-5.

Поэтому один из способов сравнения классификатора - иметь в виду это правило трех ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics), где вы можете сравнить производительность и ее изменчивость.

Другая возможность - это F-мера, которая представляет собой комбинацию Precision и Recall, и она каким-то образом не зависит от величины эффекта.


2

Количество данных в классе иногда называют supportклассификатором. Он говорит, насколько вы можете доверять своему результату, например, значение p позволит вам доверять или не доверять какому-либо тесту.

Один из подходов, который вы можете использовать, состоит в том, чтобы вычислить несколько показателей эффективности классификатора, не только точность и отзыв, но также истинно положительный показатель, ложноположительный показатель, специфичность, чувствительность, положительное правдоподобие, отрицательное правдоподобие и т. Д. И посмотреть, соответствуют ли они друг другу , Если одна из мер максимально (100%), а другая - нет, по моему опыту, это часто указывает на то, что что-то пошло не так (например, плохая поддержка, тривиальный классификатор, смещенный классификатор и т. Д.). Смотрите это для списка показателей эффективности классификатора.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.