Как определить качество мультиклассового классификатора

Данный

набор данных с экземплярами $x_i$ вместе с $N$ классами, где каждый экземпляр $x_i$ принадлежит ровно одному классу $y_i$
мультиклассовый классификатор

После обучения и тестирования у меня в основном есть таблица с истинным классом $y_i$ и прогнозируемым классом $a_i$ для каждого экземпляра $x_i$ в наборе тестов. Так что для каждого случая у меня есть либо совпадение ( $y_i= a_i$ ), либо промах ( $y_i\neq a_i$ ).

Как я могу оценить качество матча? Проблема состоит в том, что некоторые классы могут иметь много членов, то есть много экземпляров принадлежат ему. Очевидно, что если 50% всех точек данных принадлежат одному классу, а мой окончательный классификатор в целом верен на 50%, я ничего не получил. С таким же успехом я мог бы создать тривиальный классификатор, который выводит этот самый большой класс, независимо от того, что вводит.

Существует ли стандартный метод оценки качества классификатора на основе известных результатов тестирования совпадений и совпадений для каждого класса? Может быть, даже важно различать показатели соответствия для каждого конкретного класса?

Самый простой подход, который я могу придумать, состоит в том, чтобы исключить правильные совпадения самого большого класса. Что-то еще?

machine-learning classification multi-class

— Gerenuk
источник

Я не уверен, правильно ли я понял вопрос. Вы знаете Матрицу Путаницы и производные меры ? Это ответ на ваш вопрос? Или вы ссылаетесь на что-то более сложное?

— Штеффен

Я думаю, что это источник моей путаницы: в первом абзаце вы утверждаете, где yi - это реальные классы и ... : Вы имеете в виду, что экземпляр

, к которому

могу принадлежать / имеет более одного класса? Или каждый

к которому

принадлежу / имеет ровно один класс? Можете ли вы уточнить?

x_{i}

$x_i$

x_{i}

$x_i$

— Штеффен

@steffen: я видел матрицу путаницы. В моем конкретном случае у меня есть 4 класса. Поэтому я не уверен, какие производные меры могут быть использованы и имеют смысл. Каждый

принадлежит только одному классу. Однако в целом существует более двух возможных классов

x_{i}

$x_i$

i \in [1, \dots, N]

$i\in [1,\cdots,N]$

— Геренюк

@steffen Эти производные меры в первую очередь применимы к бинарной классификации, тогда как этот вопрос явно касается более двух классов. Это требует измененного понимания таких терминов, как «истинно положительный».

— Майкл МакГоуэн

@MichaelMcGowan Я попросил у OP пояснения, а затем выполнил редактирование, чтобы явно отразить проблему мультикласса, которая не была очевидна до редактирования (IMHO).

— Штеффен

Ответы:

Как и двоичная классификация, вы можете использовать эмпирическую частоту ошибок для оценки качества вашего классификатора. Пусть будет классификатором, а и будут соответственно примером в вашей базе данных и ее классе. $g$ $x_i$ $y_i$ как вы сказали, когда классы несбалансированные, базовый уровень не 50%а доля большего класса. Вы можете добавить вес в каждом классе, чтобы сбалансировать ошибку. Пусть- вес класса. Установите веса так, чтобы

e r р (г) знак равно \frac{1}{N} \underset{я \leq N}{Σ} 1_{г ({Икс}_{я}) \neq Y_{я}}

$err(g) = \frac{1}{n} \sum_{i \leq n} \mathbb{1}_{g(x_i) \neq y_i}$

W_{y}

$W_y$

y

$y$

и определимвзвешенную эмпирическую ошибку

\frac{1}{W_{y}} \sim \frac{1}{n} \sum_{i \leq n} 1_{y_{i} = y}

$\frac{1}{W_y} \sim \frac{1}{n}\sum_{i \leq n} \mathbb{1}_{y_i = y}$

е р р_{W} (г) знак равно \frac{1}{N} \underset{я \leq N}{Σ} W_{Y_{я}} 1_{г ({Икс}_{я}) \neq Y_{я}}

$err_W(g) = \frac{1}{n} \sum_{i \leq n} W_{y_i} \mathbb{1}_{g(x_i) \neq y_i}$

Как сказал Штеффен, путаница может быть хорошим способом оценки качества классификатора. В двоичном случае вы можете получить некоторую меру из этой матрицы, такую как чувствительность и специфичность, оценивая способность классификатора обнаруживать конкретный класс. Источником ошибки классификатора может быть конкретный способ. Например, классификатор может быть слишком уверенным при прогнозировании 1, но никогда не говорить неверно при прогнозировании 0. Многие классификаторы могут быть параметризованы для управления этой скоростью (ложные срабатывания по сравнению с ложными отрицаниями), и тогда вас интересует качество вся семья классификаторов, а не одна. Отсюда вы можете построить кривую ROC , а измерение площади под кривой ROC даст вам качество этих классификаторов.

Кривые ROC могут быть расширены для вашей задачи мультикласса. Предлагаю вам прочитать ответ этой ветки .

— Emile
источник

Разве нет необходимости делить взвешенную эмпирическую ошибку на количество классов, чтобы быть в том же масштабе, что и эмпирическая ошибка? В противном случае это было бы намного больше ...

— PhilippPro

Для оценки систем многостраничной классификации текста я использую микро- и макро-усредненные F1 (F-мера). F-мера - это взвешенная комбинация точности и напомним это. Для бинарной классификации, микро и макро подходы одинаковы, но я думаю, что в случае с несколькими путями они могут вам помочь. Вы можете думать о Micro F1 как о взвешенной комбинации точности и отзыва, которая придает равный вес каждому документу, в то время как Macro F1 дает одинаковый вес каждому классу. Для каждого уравнение F-меры одинаково, но вы вычисляете точность и вызываете по-разному:

F = \frac{(β^{2} + 1) P R}{β^{2} P + R},

$F = \frac{(\beta^{2} + 1)PR}{\beta^{2}P+R},$

$\beta$

P_{m i c r o} = \frac{\sum_{i = 1}^{| C |} T P_{i}}{\sum_{i = 1}^{| C |} T P_{i} + F P_{i}}, R_{m i c r o} = \frac{\sum_{i = 1}^{| C |} T P_{i}}{\sum_{i = 1}^{| C |} T P_{i} + F N_{i}}

$P_{micro}=\frac{\sum^{|C|}_{i=1}TP_{i}}{\sum^{|C|}_{i=1}TP_{i}+FP_{i}}, R_{micro}=\frac{\sum^{|C|}_{i=1}TP_{i}}{\sum^{|C|}_{i=1}TP_{i}+FN_{i}}$

P_{m a c r o} = \frac{1}{| C |} \sum_{i = 1}^{| C |} \frac{T P_{i}}{T P_{i} + F P_{i}}, R_{m a c r o} = \frac{1}{| C |} \sum_{i = 1}^{| C |} \frac{T P_{i}}{T P_{i} + F N_{i}}

$P_{macro}=\frac{1}{|C|}\sum^{|C|}_{i=1}\frac{TP_{i}}{TP_{i}+FP_{i}}, R_{macro}=\frac{1}{|C|}\sum^{|C|}_{i=1}\frac{TP_{i}}{TP_{i}+FN_{i}}$

$TP$ $FP$ $FN$ $C$

— Кайл.
источник

# Function in R, using precision, recall and F statistics

check.model.accuracy <- function(predicted.class, actual.class){

  result.tbl <- as.data.frame(table(predicted.class,actual.class ) ) 

  result.tbl$Var1 <- as.character(result.tbl$predicted.class)
  result.tbl$Var2 <- as.character(result.tbl$actual.class)

  colnames(result.tbl)[1:2] <- c("Pred","Act")

  cntr <- 0  
  for (pred.class in unique(result.tbl$Pred) ){
    cntr <- cntr+ 1
    tp <- sum(result.tbl[result.tbl$Pred==pred.class & result.tbl$Act==pred.class, "Freq"])
    tp.fp <- sum(result.tbl[result.tbl$Pred == pred.class , "Freq" ])
    tp.fn <- sum(result.tbl[result.tbl$Act == pred.class , "Freq" ])
    presi <- tp/tp.fp 
    rec <- tp/tp.fn
    F.score <- 2*presi*rec/(presi+rec)
    if (cntr == 1 ) F.score.row <- cbind(pred.class, presi,rec,F.score)
    if (cntr > 1 ) F.score.row <- rbind(F.score.row,cbind(pred.class,presi,rec,F.score))
  }

  F.score.row <- as.data.frame(F.score.row) 
  return(F.score.row)
}

check.model.accuracy(predicted.df,actual.df) 
# For multiclass, average across all classes

— Ашиш Маркандай
источник

Можете ли вы добавить текст, чтобы объяснить это?

— gung - Восстановить Монику