Ансамбли побеждают при прогнозировании по теоретическим и практическим причинам.
Существует фундаментальная теория оптимального прогнозирования, если мы имеем в виду прогнозирование следующего события в последовательности, основанной на знании предыдущих событий. Прогнозирование Solomonoff (Solomonoff 1964) доказуемо оптимально в нескольких смыслах, в том числе в том, что он «научится правильно прогнозировать любую вычисляемую последовательность только с абсолютным минимальным объемом данных». (Hutter, Legg & Vitanyi 2007) Предсказатель Solomonoff взвешивает все совместимые программы с существующими данными, в соответствии с колмогоровской сложностью программы и вероятностью, которую программа присваивает данным до настоящего времени, объединяя эпикурейскую («сохраняй все теории») и философию Оккама («предпочитай простые теории») в байесовской структуре.
Свойства оптимальности предсказания Соломонова объясняют надежные результаты, на которые вы ссылаетесь: усреднение по моделям, источникам или экспертам улучшает предсказания, а усредненные предсказания превосходят даже одного лучшего предиктора. Различные методы ансамбля, которые можно увидеть на практике, можно рассматривать как вычислимое приближение к предсказанию Соломонова, а некоторые, такие как MML (Wallace 2005), явно исследуют связи, хотя большинство этого не делает.
Уоллес (2005) отмечает, что предиктор Соломонова не является экономным - он содержит бесконечный пул моделей - но большая часть предсказательной силы неизбежно падает на относительно небольшой набор моделей. В некоторых областях единственная лучшая модель (или семейство почти неразличимых моделей) может составлять большую часть прогностической силы и превосходить общие ансамбли, но в сложных областях с небольшой теорией, скорее всего, ни одна семья не захватывает большую часть апостериорной вероятности, и поэтому усреднение по вероятным кандидатам должно улучшить прогнозы. Чтобы выиграть приз Netflix, команда Bellkor смешала более 450 моделей (Koren 2009).
Люди обычно ищут единственное хорошее объяснение: в «высокотехнологичных» областях, таких как физика, они работают хорошо. Действительно, если они отражают основную причинную динамику, они должны быть почти непобедимыми. Но там, где доступные теории не соответствуют явлениям (скажем, рекомендации фильмов или геополитика), отдельные модели будут неэффективными: все они неполные, поэтому ни одна не должна доминировать. Таким образом, в последнее время акцент делается на ансамблях (для машинного обучения) и «Мудрости толпы» (для экспертов), а также на успехе таких программ, как IARPA ACE и, в частности, проекта «Правосудие» (Tetlock & Gardiner 2015).
Ссылки
- М. Хаттер, С. Легг и П. Витаньи, «Алгоритмическая вероятность», Scholarpedia, vol. 2, 2007, с. 2572.
- Ю. Корен, «Решение BellKor о Гран-при Netflix», 2009.
- Соломонов, Рэй (март 1964). «Формальная теория индуктивного вывода, часть I» (PDF). Информация и управление 7 (1): 1–22. DOI: 10.1016 / S0019-9958 (64) 90223-2.
- Соломонов, Рэй (июнь 1964 г.). «Формальная теория индуктивного вывода, часть II» (PDF). Информация и контроль 7 (2): 224–254. DOI: 10.1016 / S0019-9958 (64) 90131-7.
- ЧП Тетлок, эксперт политического суждения: насколько это хорошо? Как мы можем знать ?, Издательство Принстонского университета, 2005.
- Tetlock, PE & Gardner, D. (2015). Сверхпрогнозирование: искусство и наука прогнозирования. Нью-Йорк: Корона.
- CS Wallace, Статистический и индуктивный вывод по минимальной длине сообщения, Springer-Verlag, 2005.