Должна ли скупость действительно оставаться золотым стандартом?


31

Просто мысль:

Экономные модели всегда были стандартным выбором при выборе модели, но насколько этот подход устарел? Мне любопытно, насколько наша склонность к скупости является пережитком времени абаки и правил скольжения (или, что более серьезно, нетрадиционных компьютеров). Сегодняшние вычислительные мощности позволяют нам создавать все более сложные модели с еще большими возможностями для прогнозирования. В результате этого растущего потолка вычислительной мощности, нам действительно все еще нужно стремиться к простоте?

Несомненно, более простые модели легче понять и интерпретировать, но в эпоху постоянно растущих наборов данных с большим числом переменных и смещением в сторону большего внимания к возможностям прогнозирования, это, возможно, уже не будет достижимым или необходимым.

Мысли?


4
С извинениями перед Ричардом Хэммингом: целью моделирования является понимание, а не цифры. Сложные модели мешают пониманию.
Эрик Тауэрс,

12
Упрощенные модели еще больше затрудняют понимание.
Фрэнк Харрелл

6
Это может зависеть от приложения; в физике, я думаю, аргумент в пользу скупости будет иметь прочную основу. Тем не менее, многие приложения будут иметь множество небольших эффектов, которые невозможно устранить (например, рассмотрим модели политических предпочтений). Ряд работников предполагают, что использование регуляризации (например, методов, которые приводят к сокращению или во многих приложениях к уменьшению различий, или и того и другого), а не устранение переменных, имеет больше смысла; другие склоняются к некоторому выбору и некоторой усадке (например, LASSO делает и то, и другое).
Glen_b

3
Экономные модели - не самое подходящее место при выборе модели. В противном случае мы всегда моделировали бы все с помощью выборки и называли бы это днем.
теневик

1
Также, немного пищи для размышлений: Mease and Wyner (2008) рекомендуют более богатых учеников в AdaBoost, что немного не интуитивно понятно. Похоже, открытым вопросом в этой области исследований является то, ведут ли скупые базовые ученики к скупым ансамблям.
теневик

Ответы:


25

Оригинальный ответ @ Matt отлично описывает одно из преимуществ скупости, но я не думаю, что он действительно отвечает на ваш вопрос. На самом деле скупость не золотой стандарт. Не сейчас и никогда не было. «Золотой стандарт», связанный с экономией - это ошибка обобщения. Мы хотели бы разработать модели, которые не подходят. Это так же полезно для прогнозирования (или как интерпретируемое или с минимальной ошибкой) вне выборки, так и в выборке. Оказывается (из-за вышеизложенного), что скупость на самом деле является неплохим прокси для ошибки обобщения, но она ни в коем случае не единственная.

В самом деле, подумайте о том, почему мы используем перекрестную проверку или загрузку или наборы обучающих / тестовых данных. Цель состоит в том, чтобы создавать модели с хорошей точностью обобщения. В большинстве случаев эти способы оценки производительности выборки приводят к выбору моделей с меньшей сложностью, но не всегда. В качестве крайнего примера представьте, что оракул передает нам истинную, но чрезвычайно сложную модель и бедную, но экономную модель. Если бы скупость действительно была нашей целью, то мы бы выбрали второе, но на самом деле первое - это то, что мы хотели бы узнать, если бы могли. К сожалению, часто последнее предложение является кикером, «если бы мы могли».


Что такое «оригинальный ответ»?
Mattdm

:) справедливо. Комментарий Мэтта.
Ник Тим 21

22

Экономные модели желательны не только из-за вычислительных требований, но и для производительности обобщения. Невозможно достичь идеала бесконечных данных, которые полностью и точно охватывают пространство выборки, а это означает, что непарноправные модели могут переопределять и моделировать шум или идиосинкразии в совокупности выборок.

Конечно, возможно построить модель с миллионами переменных, но вы будете использовать переменные, которые не влияют на результат, для моделирования системы. Вы можете достичь высокой прогнозирующей производительности в своем наборе обучающих данных, но эти нерелевантные переменные, скорее всего, снизят вашу производительность в невидимом наборе тестов.

Если выходная переменная действительно является результатом миллиона входных переменных, то было бы неплохо поместить их все в модель прогнозирования, но только если у вас достаточно данных . Чтобы точно построить модель такого размера, вам понадобится как минимум несколько миллионов точек данных. Скупые модели хороши тем, что во многих реальных системах набор данных такого размера просто недоступен, и, кроме того, выходные данные в значительной степени определяются относительно небольшим числом переменных.


5
+1. Я предлагаю прочитать «Элементы статистического обучения» (свободно доступные в Интернете) , в которых подробно рассматривается эта проблема.
С. Коласса - Восстановить Монику

3
С другой стороны, когда у вас миллионы переменных и мало объектов, вполне вероятно, что чисто случайно некоторые переменные лучше объясняют результат, чем истинное взаимодействие. В таком случае моделирование на основе скупости будет более восприимчивым к переоснащению, чем метод грубой силы.

@CagdasOzgenc Например, большой случайный подпространственный ансамбль.

Я чувствую, что здесь может применяться что-то вроде подхода Лассо.
лесовод

17

Я думаю, что предыдущие ответы делают хорошую работу, чтобы подчеркнуть важные моменты:

  • Экономные модели, как правило, имеют лучшие характеристики обобщения.
  • Скупость - это не золотой стандарт, а просто соображение.

Я хочу добавить несколько комментариев, которые вытекают из моего повседневного опыта работы.

Обобщение аргумента о предсказательной точности, конечно, является сильным, но в своей направленности оно является академическим уклоном. В целом, при создании статистической модели экономика не такова, что прогнозирующая эффективность является полностью доминирующим фактором. Очень часто существуют большие внешние ограничения на то, как выглядит полезная модель для данного приложения:

  • Модель должна быть реализована в существующей структуре или системе.
  • Модель должна быть понятна нетехническому субъекту.
  • Модель должна быть эффективной в вычислительном отношении.
  • Модель должна быть документируемой .
  • Модель должна соответствовать нормативным ограничениям .

В реальных областях применения многие, если не все, эти соображения предшествуют , а не после прогнозирующей производительности, и оптимизация формы и параметров модели ограничена этими желаниями. Каждое из этих ограничений смещает ученого в сторону экономии.

Возможно, это правда, что во многих областях эти ограничения постепенно снимаются. Но это действительно удачливый ученый, который игнорирует их и фокусируется исключительно на минимизации ошибки обобщения.

Это может быть очень расстраивающим впервые ученого, только что окончившего школу (это определенно было для меня, и продолжает оставаться, когда я чувствую, что ограничения, наложенные на мою работу, не оправданы). Но, в конце концов, усердно работать над созданием неприемлемого продукта - пустая трата времени, и это чувствует себя хуже, чем укол вашей научной гордости.


2
Без скупости это не соображение. Процедура логического вывода ДОЛЖНА ранжировать скупую модель по сравнению с не скупой, если они одинаково хорошо объясняют данные. В противном случае общая длина сжатого кода модели и данных, закодированных моделью, не будет наименьшей. Так что да, это золотой стандарт.
Кагдас Озгенц

3
Скупость НЕ является «золотым стандартом»! Это утверждение нелепо. Если это правда, то почему мы не всегда строим модели, которые соответствуют ничему, кроме безусловного среднего значения? Мы компенсируем предвзятость и дисперсию в отношении набора тестов или, что еще лучше, совершенно новых наблюдений, и мы делаем это в рамках ограничений нашей области, организации и закона. Иногда у вас достаточно информации, чтобы делать наивные прогнозы. Иногда у вас есть достаточно, чтобы добавить сложность.
Дерзкое Равновесие

1
@BrashEquilibrium Я думаю, что говорит Кагдас, учитывая выбор между одинаково прогнозирующими моделями, следует выбрать наиболее экономную.
Мэтью Друри

1
Ах. Это другая вещь. Да, в этом случае выберите самую экономную модель. Я все еще не думаю, что скупость является «золотым стандартом».
Brash Equilibrium

1
@MatthewDrury Brash, Cagdas. Интересный. Возможно, скупость является лишь одним из компонентов золотого стандарта; что, вероятно, (или должно быть) лучше основано на понятии охвата . Хорошее изложение этой идеи представлено в следующей лекции по астрофизике из Йельского университета: oyc.yale.edu/astronomy/astr-160/lecture-11 . 7:04 года Эта идея также представлена ​​в литературе по эконометрике и прогнозированию Дэвида Хендри и Грэма Мизона. Они утверждают, что охват - это часть прогрессивной исследовательской стратегии, одним из аспектов которой является скупость.
Грэм Уолш

14

Я думаю, что это очень хороший вопрос. На мой взгляд скупость переоценена. Природа редко бывает скупой, и поэтому мы не должны ожидать, что точные предсказательные или описательные модели будут такими же. Что касается вопроса интерпретируемости, если вы выбираете более простую модель, которая лишь скромно соответствует реальности только потому, что вы можете ее понять, что именно вы понимаете? Предполагая, что более сложная модель обладает лучшей предсказательной силой, она все равно будет ближе к фактическим фактам.


8
Хорошо сказано @dsaxton. Существует большое недопонимание скупости и недооценки того, насколько изменчивым является выбор функций. Скупость хороша, когда она проистекает из предварительной спецификации. Большинство скупости, возникающей в результате углубления данных, вводит в заблуждение и понимается только потому, что это неправильно.
Фрэнк Харрелл

2
@FrankHarrell Не могли бы вы уточнить «только понял, потому что это неправильно», или, возможно, ссылку на то, что вы ранее написали об этом? Это интересный момент, который я хотел бы убедиться, что я понимаю.
gui11aume

8
Это крайний пример, но люди, которые занимаются расовым профилированием, думают, что с одной особенностью (например, цветом кожи) они понимают, какую ценность кто-то имеет. Для них ответ прост. Они понимают это только потому, что делают неправильное суждение, упрощая. Скупость обычно является иллюзией (за исключением ньютоновской механики и некоторых других областей).
Фрэнк Харрелл

1
«Природа редко бывает экономной»: и одна точка, в которой природа особенно экономна, - это индивидуумы (в отличие от наших типичных размеров выборки!). Эволюция использует целую новую популяцию новых людей каждого поколения ... ИМХО скупость (предопределенный тип Фрэнка Харрелла - включение любых n из m доступных функций в модель на самом деле является очень сложной моделью - даже если n << m, это не столь малая часть исходного пространства поиска), это то, как мы пытаемся извлечь хотя бы что-то из наших слишком маленьких наборов данных.
cbeleites поддерживает Монику

2

Скупость не золотое начало. Это аспект в моделировании. Моделирование и особенно прогнозирование не могут быть написаны в сценарии, то есть вы не можете просто передать сценарий для разработчика. Вы скорее определяете принципы, на которых должен базироваться процесс моделирования. Таким образом, скупость является одним из этих принципов, применение которых не может быть написано в сценарии (снова!). Моделер будет учитывать сложность при выборе модели.

Вычислительная мощность имеет мало общего с этим. Если вы работаете в отрасли, ваши модели будут использовать деловые люди, специалисты по продуктам, кто бы вы их ни называли. Вы должны объяснить им свою модель, это должно иметь для них смысл . Наличие скупых моделей помогает в этом отношении.

Например, вы прогнозируете продажи продукта. Вы должны быть в состоянии описать, что является драйверами продаж и как они работают. Они должны быть связаны с понятиями, с которыми работает бизнес, а бизнес должен понимать и принимать их взаимосвязи . Со сложными моделями может быть очень трудно интерпретировать результаты модели или приписать различия фактическим. Если вы не можете объяснить свои модели бизнесу, он вас не оценит.

Еще одна вещь, которая особенно важна для прогнозирования. Допустим, ваша модель зависит от N экзогенных переменных. Это означает, что вы должны сначала получить прогнозы этих переменных, чтобы спрогнозировать вашу зависимую переменную. Меньшее N облегчает вашу жизнь, поэтому проще использовать более простую модель.


Хотя вы упоминаете прогнозирование, большая часть вашего ответа применима только к объяснительному моделированию.
rolando2

@ rolando2, это звучит так, потому что в моем домене вы не можете просто передать прогноз пользователям. Мы должны объяснить прогноз, связать его с водителями и т. Д. Когда вы получаете прогноз погоды, вы обычно не просите прогнозиста объяснить, почему именно они думают, что будет дождь с вероятностью 50%. В моем случае я должен не только делать это, но и делать так, чтобы мои потребители понимали результаты, связывая его с бизнес-драйверами, с которыми они сталкиваются ежедневно. Вот почему сарказм ценен сам по себе
Аксакал

1

Возможно, я рассмотрю Информационный критерий Акаике , концепцию, которую я обнаружил только по счастливой случайности вчера. AIC стремится определить, какая модель и сколько параметров являются наилучшим объяснением для имеющихся наблюдений, а не какой-либо базовый подход Бритвы Оккама или скупость.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.