О «силе» слабых учеников

22

У меня есть несколько тесно связанных вопросов относительно слабых учеников в обучении ансамблю (например, повышение).

Это может показаться глупым, но каковы преимущества использования слабых по сравнению с сильными учениками? (например, почему бы не повысить с "сильными" методами обучения?)
Есть ли какая-то «оптимальная» сила для слабых учеников (например, при сохранении всех остальных параметров ансамбля)? Есть ли «сладкое пятно», когда дело доходит до их силы?
Как мы можем измерить силу слабого ученика относительно силы полученного метода ансамбля. Как мы можем количественно измерить предельные выгоды от использования ансамбля?
Как мы сравниваем несколько слабых алгоритмов обучения, чтобы решить, какой из них использовать для данного метода ансамбля?
Если данный метод ансамбля помогает слабым классификаторам больше, чем сильным, как мы можем сказать, что данный классификатор уже «слишком силен», чтобы приносить какие-либо существенные выгоды при его повышении?

machine-learning boosting ensemble

16

Это может быть больше в духе упаковки, но тем не менее:

Если у вас действительно сильный ученик, нет необходимости улучшать его с помощью ансамбля.
Я бы сказал ... не имеет значения. При смешивании и суммировании тривиально, при создании слишком сильного классификатора это может привести к некоторым нарушениям конвергенции (т. Е. Удачное предсказание может сделать следующую итерацию, чтобы предсказать чистый шум и, следовательно, снизить производительность), но это обычно исправляется в последующих итерациях.
Опять же, это не настоящая проблема. Самым ядром этих методов является
1. заставить частичные классификаторы взглянуть глубже на проблему.
2. объедините их предсказания, чтобы ослабить шум и усилить сигнал.
1) нуждается в некотором внимании при повышении (т.е. хорошая схема повышения, хорошо ведущий себя частичный учащийся - но об этом в основном нужно судить по экспериментам над всем повышением), 2) в пакетировании и смешивании (в основном, как обеспечить отсутствие корреляции между учащимися). и не переусердствуйте в ансамбле). Пока все в порядке, точность частичного классификатора является проблемой третьего порядка.

Спасибо @mbq. Означает ли вышесказанное, что слабые классификаторы обычно получают больше преимуществ от ансамблевых методов, чем сильные? (т.е. повышение помогает слабым классификаторам больше, чем сильным). В этом смысле, откуда мы знаем, что данный классификатор уже достаточно силен для определенного метода ансамбля? (например, как вы можете грубо сказать, что у вас сильный ученик, который не получит много пользы от повышения?)

— Амелио Васкес-Рейна

1

Скорее только слабые классификаторы дают пространство для улучшения. В общем, сила - это абстрактное качество, и мы не можем его измерить. Единственный определенный тест - это просто провести эксперимент и проверить, значительно ли увеличивает сборку производительность. Если это так, классификатор был слабым. Если нет, то мы все еще ничего не знаем.

11

Во-первых, понятия «слабый» и «сильный» определены слабо. С моей точки зрения, они должны быть определены относительно оптимального байесовского классификатора, который является целью любого алгоритма обучения. Имея это в виду, я отвечаю на три пункта следующим образом.

Вычислительный, как я это вижу. Большинство слабых учеников, которых я знаю, быстры в вычислительном отношении (и в остальном не заслуживают рассмотрения) Важным моментом в ансамблевом обучении является именно то, что мы можем комбинировать простых и быстрых, но не очень хороших учеников и повышать уровень ошибок. Если мы используем более сильных (и более требовательных в вычислительном отношении) учеников, пространство для улучшений становится меньше, но вычислительные затраты становятся больше, что делает использование ансамблевых методов менее интересным. Более того, одного сильного ученика легче интерпретировать. Однако то, что является слабым, а что сильным, зависит от проблемы и оптимальной скорости Байеса, которую мы пытаемся достичь. Следовательно, если учащийся, которого часто считают сильным, все еще оставляет место для улучшений при его повышении, и повышение в вычислительном отношении возможно, тогда действительно повышайте ...
Это будет зависеть от критериев, которые вы используете для измерения «оптимальности». Что касается уровня ошибок, я бы сказал, нет (я приветствую любые исправления, если другие имеют другой опыт). С точки зрения скорости, возможно, но я бы предположил, что это сильно зависит от проблемы. Извините, я не знаю литературы по этому вопросу.
?
Перекрестная проверка, перекрестная проверка, перекрестная проверка. Как и при любом другом сравнении методов обучения с целью составления прогнозов, нам нужны объективные оценки погрешности обобщения для сравнения, которые могут быть достигнуты путем выделения набора тестовых данных или аппроксимации этого путем перекрестной проверки.

— NRH
источник

Спасибо @NRH, это очень полезно. Я разделил третий вопрос на два отдельных вопроса, поскольку думаю, что они, вероятно, требуют разных ответов.

— Амелио Васкес-Рейна

Так есть ли способ узнать, насколько близок классификатор к оптимальному байесовскому классификатору? Если оно уже достаточно близко, мы не сможем его улучшить.

— highBandWidth

@highBandWidth, невозможно узнать, какова скорость Байеса. Это теоретическая величина, которая зависит от неизвестного распределения. Теоретические предположения могут дать нижнюю и верхнюю (асимптотические) границы, и с помощью перекрестной проверки или данных независимых испытаний можно точно оценить верхние границы. Но если вы не знаете распределение, невозможно сказать, являются ли такие верхние границы жесткими или оставляют место для улучшения.

— NRH