Когда я не должен использовать ансамблевой классификатор?


17

В общем, в проблеме классификации, где цель состоит в том, чтобы точно предсказать членство в классах вне выборки, когда я не должен использовать ансамблевый классификатор?

Этот вопрос тесно связан с тем, почему не всегда использовать ансамблевое обучение? , Этот вопрос спрашивает, почему мы не используем ансамбли все время. Я хочу знать, есть ли случаи, когда ансамбли, как известно, хуже (не просто «не лучше и не трата времени»), чем не ансамблевый эквивалент.

И под «ансамблевым классификатором» я имею в виду такие классификаторы, как AdaBoost и случайные леса, в отличие, например, от расширенной машины опорных векторов.


2
Я бы не использовал ансамблевые методы, если у вас нет разнообразия между отдельными методами. Другими словами, ансамбль полезен, когда вы комбинируете разнообразный набор методов.
синоптик

2
@forecaster Я не мог не добавить очень хорошую статью о том, что авторы называют «хорошим» и «плохим» разнообразием pages.bangor.ac.uk/~mas00a/papers/gblkMCS10.pdf в контексте ансамблей
Владислав Довгальец

NaTUребяоLограммясaLLY яNsпяреd

Ответы:


7

Модель, наиболее близкая к истинному процессу генерирования данных, всегда будет лучшей и превзойдет большинство ансамблевых методов. Поэтому, если данные поступают из линейного процесса, lm () будет намного лучше случайных лесов, например:

    set.seed(1234)
p=10
N=1000
#covariates
x = matrix(rnorm(N*p),ncol=p)
#coefficients:
b = round(rnorm(p),2)
y = x %*% b + rnorm(N)
train=sample(N, N/2)
data = cbind.data.frame(y,x)
colnames(data) = c("y", paste0("x",1:p))
#linear model
fit1 = lm(y ~ ., data = data[train,])
summary(fit1)
yPred1 =predict(fit1,data[-train,])
round(mean(abs(yPred1-data[-train,"y"])),2)#0.79

library(randomForest)
fit2 = randomForest(y ~ ., data = data[train,],ntree=1000)
yPred2 =predict(fit2,data[-train,])
round(mean(abs(yPred2-data[-train,"y"])),2)#1.33

13

Я не рекомендую использовать ансамблевой классификатор, когда ваша модель должна быть интерпретируемой и объяснимой. Иногда вам нужны прогнозы и объяснения прогнозов.

Когда вам нужно убедить людей в том, что в прогнозы стоит верить, очень точная модель может быть очень убедительной, но я изо всех сил пытался убедить людей действовать в соответствии с прогнозами, когда методы слишком сложны для их уровня комфорта.

По моему опыту, большинству людей удобны линейные аддитивные модели, модели, которые они могли бы набрать вручную, и если вы попытаетесь объяснить адаптивное ускорение, гиперплоскости и эффекты взаимодействия 5-го уровня, они будут реагировать так, как будто вы бросаете им черную магию.

С другой стороны, люди могут быть довольны сложностью модели, но все же хотят усвоить некоторое понимание. Ученые, например, могут не считать модель черного ящика прогрессом в человеческих знаниях, даже если модель очень точна.

Анализ важности переменных может помочь с пониманием, но если ансамбль является более точным, чем линейная аддитивная модель, он, вероятно, использует некоторые нелинейные эффекты и эффекты взаимодействия, которые анализ переменной важности не может полностью объяснить.


Не то, что я был после, но хорошие моменты. +1
теневик

3

Я хотел бы добавить к ответу Бранко. Ансамбли могут быть очень конкурентоспособными и обеспечивать очень хорошие результаты. Например, в академических кругах это главное. В промышленности ансамбли могут быть слишком сложными для реализации / поддержки / модификации / переноса. Работа Гофа Хинтона над «Темным знанием» как раз и заключается в следующем: как перенести «знание» большого ансамбля в одну легко перемещаемую модель. Он заявляет, что ансамбли плохие во время тестирования: они сильно избыточны, и время вычислений может вызывать беспокойство.

Его команда получила интересные результаты, предлагаю ознакомиться с его публикациями или хотя бы слайдами. Если у меня хорошая память, это была горячая тема 2013 или 2014 года.

Слайды о Темных Знаниях можно найти здесь: http://www.ttic.edu/dl/dark14.pdf

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.