почему метод повышения чувствительности к выбросам

12

Я нашел много статей, в которых говорится, что методы повышения чувствительны к выбросам, но нет статей, объясняющих почему.

По моему опыту, выбросы плохи для любого алгоритма машинного обучения, но почему методы повышения выделяются как особенно чувствительные?

Как бы оценили следующие алгоритмы с точки зрения чувствительности к выбросам: буст-дерево, случайный лес, нейронная сеть, SVM и простые методы регрессии, такие как логистическая регрессия?

— lserlohn
источник

1

Я отредактировал, чтобы попытаться уточнить (также, если вы ставите пробелы в начале строки, stackexchange будет рассматривать это как код). К вашему второму параграфу, повышение это что? Возможно, вам придется определить чувствительность.

— Джереми Майлз

1

Кроме того, выбросы и шум не одно и то же.

— Джереми Майлз

Я бы не пометил этот вопрос как решенный. Неясно, действительно ли ускорение страдает от выбросов больше, чем другие методы, или нет. Кажется, принятый ответ был принят в основном из-за предвзятости подтверждения.

— rinspy

Можете ли вы поделиться некоторыми из этих статей, пожалуйста?

— acnalb

11

Выбросы могут быть плохими для повышения, потому что повышение строит каждое дерево на остатках / ошибках предыдущих деревьев. Выбросы будут иметь гораздо большие остатки, чем не выбросы, поэтому усиление градиента сфокусирует непропорциональное количество внимания на этих точках.

— Райан Зотти
источник

2

Будет лучше, если вы сможете дать больше математических деталей в ОП!

— Метариат

5

@Matemattica Я не согласен, что добавление математических деталей обеспечит дополнительную ясность здесь. Это был бы просто символ для градиентов деревьев и скорость обучения последующих деревьев.

— Райан Зотти

1

@RyanZotti: Я согласен с Метариатом. Более формальная запись разрешила бы некоторую путаницу. Например, в предложении «Выбросы будут иметь гораздо большие остатки, чем не выбросы», вы имеете в виду остатки относительно чего? Предполагаемая модель или истинная? Если первое, это не так в целом, а если второе, то это не имеет значения.

— user603

1

Указанные вами алгоритмы предназначены для классификации, поэтому я предполагаю, что вы имеете в виду не выбросы в целевой переменной, а выбросы входных переменных. Методы Boosted Tree должны быть достаточно устойчивы к выбросам во входных объектах, поскольку базовые учащиеся являются разбиениями дерева. Например, если разделение равно x > 35, и 5 000 000 обрабатываются одинаково. Это может или не может быть хорошей вещью, но это другой вопрос.

Если бы вместо этого вы говорили о регрессии и выбросах в целевой переменной, то чувствительность методов повышенного дерева будет зависеть от используемой функции стоимости. Конечно, квадратичная ошибка чувствительна к выбросам, потому что разность возводится в квадрат, и это сильно повлияет на следующее дерево, так как бустинг пытается соответствовать (градиенту) потерь. Однако есть более надежные функции ошибок, которые можно использовать для методов ускоренного дерева, таких как Huber loss и Absolute Loss.

— ZakJ
источник

0

При повышении мы пытаемся выбрать набор данных, по которому результаты алгоритма были плохими, вместо случайного выбора подмножества данных. Эти сложные примеры очень важны для изучения, поэтому, если в наборе данных много выбросов, и алгоритм не работает с ними лучше, чем при изучении этих сложных примеров, алгоритм попытается выбрать подмножества с этими примерами.

— Waleed Sial
источник