Почему ансамбли так неоправданно эффективны?

14

Кажется, стало аксиоматичным, что ансамбль учащихся приводит к наилучшим возможным результатам модели - и это становится все более редким, например, для отдельных моделей, чтобы выиграть соревнования, такие как Kaggle. Есть ли теоретическое объяснение, почему ансамбли так чертовски эффективны?

machine-learning data-mining predictive-modeling

— Роберт де Грааф
источник

1

Моим предположением будет Центральная предельная теорема, но у меня нет оправдания.

13

Для конкретной модели вы передаете ей данные, выбираете функции, выбираете гиперпараметры и так далее. По сравнению с реальностью он допускает три типа ошибок:

Смещение (из-за слишком низкой сложности модели, смещения выборки в ваших данных)
Дисперсия (из-за шума в ваших данных, переоснащения ваших данных)
Случайность реальности, которую вы пытаетесь предсказать (или отсутствие прогностических функций в вашем наборе данных)

Ансамбли усредняют количество этих моделей. Смещение из-за смещения выборки не будет исправлено по очевидным причинам, оно может исправить некоторые смещения сложности модели, однако ошибки, которые допускаются, сильно различаются в разных моделях. Особенно слабокоррелированные модели допускают очень разные ошибки в этой области, некоторые модели хорошо работают в определенных частях вашего функционального пространства. Усредняя эти модели, вы значительно уменьшаете эту дисперсию. Вот почему ансамбли сияют.

— Ян ван дер Вегт
источник

6

Выбранный ответ фантастический, но я хотел бы добавить две вещи:

Наблюдалось, что усреднение человеческих предсказаний дает лучшие предсказания, чем любое отдельное предсказание. Это известно как мудрость толпы . Теперь вы можете утверждать, что это потому, что некоторые люди имеют разную информацию, поэтому вы эффективно усредняете информацию. Но нет, это верно даже для таких задач, как угадывание количества бобов в банке. Я предполагаю, что это связано с некоторыми из приведенных выше причин о моделях интеллектуального анализа данных.
Некоторые методы, такие как метод отсева в нейронных сетях (где на каждой итерации во время обучения вы используете только часть своей нейронной сети) дают результаты, аналогичные ансамблю нейронных сетей. Смысл в том, что вы фактически заставляете узлы выполнять ту же работу по предсказанию, что и другие узлы, эффективно создавая мета-ансамбль. Я говорю это, чтобы подчеркнуть, что мы можем представить некоторые преимущества ансамблей в традиционных моделях.

— Рикардо Круз
источник

6

Ансамбли побеждают при прогнозировании по теоретическим и практическим причинам.

Существует фундаментальная теория оптимального прогнозирования, если мы имеем в виду прогнозирование следующего события в последовательности, основанной на знании предыдущих событий. Прогнозирование Solomonoff (Solomonoff 1964) доказуемо оптимально в нескольких смыслах, в том числе в том, что он «научится правильно прогнозировать любую вычисляемую последовательность только с абсолютным минимальным объемом данных». (Hutter, Legg & Vitanyi 2007) Предсказатель Solomonoff взвешивает все совместимые программы с существующими данными, в соответствии с колмогоровской сложностью программы и вероятностью, которую программа присваивает данным до настоящего времени, объединяя эпикурейскую («сохраняй все теории») и философию Оккама («предпочитай простые теории») в байесовской структуре.

Свойства оптимальности предсказания Соломонова объясняют надежные результаты, на которые вы ссылаетесь: усреднение по моделям, источникам или экспертам улучшает предсказания, а усредненные предсказания превосходят даже одного лучшего предиктора. Различные методы ансамбля, которые можно увидеть на практике, можно рассматривать как вычислимое приближение к предсказанию Соломонова, а некоторые, такие как MML (Wallace 2005), явно исследуют связи, хотя большинство этого не делает.

Уоллес (2005) отмечает, что предиктор Соломонова не является экономным - он содержит бесконечный пул моделей - но большая часть предсказательной силы неизбежно падает на относительно небольшой набор моделей. В некоторых областях единственная лучшая модель (или семейство почти неразличимых моделей) может составлять большую часть прогностической силы и превосходить общие ансамбли, но в сложных областях с небольшой теорией, скорее всего, ни одна семья не захватывает большую часть апостериорной вероятности, и поэтому усреднение по вероятным кандидатам должно улучшить прогнозы. Чтобы выиграть приз Netflix, команда Bellkor смешала более 450 моделей (Koren 2009).

Люди обычно ищут единственное хорошее объяснение: в «высокотехнологичных» областях, таких как физика, они работают хорошо. Действительно, если они отражают основную причинную динамику, они должны быть почти непобедимыми. Но там, где доступные теории не соответствуют явлениям (скажем, рекомендации фильмов или геополитика), отдельные модели будут неэффективными: все они неполные, поэтому ни одна не должна доминировать. Таким образом, в последнее время акцент делается на ансамблях (для машинного обучения) и «Мудрости толпы» (для экспертов), а также на успехе таких программ, как IARPA ACE и, в частности, проекта «Правосудие» (Tetlock & Gardiner 2015).

Ссылки

М. Хаттер, С. Легг и П. Витаньи, «Алгоритмическая вероятность», Scholarpedia, vol. 2, 2007, с. 2572.
Ю. Корен, «Решение BellKor о Гран-при Netflix», 2009.
Соломонов, Рэй (март 1964). «Формальная теория индуктивного вывода, часть I» (PDF). Информация и управление 7 (1): 1–22. DOI: 10.1016 / S0019-9958 (64) 90223-2.
Соломонов, Рэй (июнь 1964 г.). «Формальная теория индуктивного вывода, часть II» (PDF). Информация и контроль 7 (2): 224–254. DOI: 10.1016 / S0019-9958 (64) 90131-7.
ЧП Тетлок, эксперт политического суждения: насколько это хорошо? Как мы можем знать ?, Издательство Принстонского университета, 2005.
Tetlock, PE & Gardner, D. (2015). Сверхпрогнозирование: искусство и наука прогнозирования. Нью-Йорк: Корона.
CS Wallace, Статистический и индуктивный вывод по минимальной длине сообщения, Springer-Verlag, 2005.

— ctwardy
источник