В настоящее время я использую несколько различных классификаторов для различных сущностей, извлеченных из текста, и использую точность / отзыв в качестве сводки того, насколько хорошо работает каждый отдельный классификатор в данном наборе данных.
Мне интересно, есть ли реальный способ сравнения производительности этих классификаторов подобным образом, но который также учитывает общее количество каждого объекта в тестовых данных, которые классифицируются?
В настоящее время я использую точность / отзыв как меру производительности, поэтому может иметь что-то вроде:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Однако набор данных, на котором я работаю, может содержать 100 тыс. Человек, 5 тыс. Компаний, 500 сыров и 1 яйцо.
Так есть ли сводная статистика, которую я могу добавить к приведенной выше таблице, которая также учитывает общее количество каждого элемента? Или есть какой-то способ измерить тот факт, что, например, 100% предварительная / обратная запись по классификатору Egg может не иметь смысла только с одним элементом данных?
Допустим, у нас было сотни таких классификаторов, я думаю, что я ищу хороший способ ответить на вопросы типа «Какие классификаторы не работают? Какие классификаторы испытывают недостаток в достаточных тестовых данных, чтобы сказать, что они не выполняют?».