Данный
- набор данных с экземплярами вместе с классами, где каждый экземпляр принадлежит ровно одному классу
- мультиклассовый классификатор
После обучения и тестирования у меня в основном есть таблица с истинным классом и прогнозируемым классом для каждого экземпляра в наборе тестов. Так что для каждого случая у меня есть либо совпадение ( ), либо промах ( ).
Как я могу оценить качество матча? Проблема состоит в том, что некоторые классы могут иметь много членов, то есть много экземпляров принадлежат ему. Очевидно, что если 50% всех точек данных принадлежат одному классу, а мой окончательный классификатор в целом верен на 50%, я ничего не получил. С таким же успехом я мог бы создать тривиальный классификатор, который выводит этот самый большой класс, независимо от того, что вводит.
Существует ли стандартный метод оценки качества классификатора на основе известных результатов тестирования совпадений и совпадений для каждого класса? Может быть, даже важно различать показатели соответствия для каждого конкретного класса?
Самый простой подход, который я могу придумать, состоит в том, чтобы исключить правильные совпадения самого большого класса. Что-то еще?