Байесовский шип и плита против наказанных методов

Я читаю слайды Стивена Скотта о пакете BSTS R (Вы можете найти их здесь: слайды ).

В какой-то момент, говоря о включении многих регрессоров в модель структурных временных рядов, он вводит априорные и контрольные значения коэффициентов регрессии и говорит, что они лучше по сравнению с штрафными методами.

Скотт говорит, ссылаясь на пример набора данных со 100 предикторами:

Оштрафованные методы принимают одно решение о том, какие переменные включены / исключены, это означает, что они выбирают одно подмножество предикторов, то есть одну модель среди возможных. $2^{100}$
«Лассо (и родственные) приоры не редки, они вызывают разреженность в моде, но не в заднем распределении»

В этот момент он представляет приоры Spike и Slab.

Я думаю, что я получил интуицию, но я хочу быть уверен в этом:

Являются ли они лучше в том смысле, что они в основном используют метод грубой силы, тестирующий каждое возможное подмножество регрессоров для включения?
Недостаток - время вычислений при этом?
Как вы думаете, что он имеет в виду, когда говорит «Лассо (и связанный) ... но не в последнем распределении»?

— Томмазо Геррини
источник

Сначала я отвечу на ваш третий вопрос, а потом на два других.

Как вы думаете, что он имеет в виду, когда говорит «Лассо (и связанный) ... но не в последнем распределении»?

Эта фигура из его слайдов показывает, что он имеет в виду. Выражение регуляризатора Лассо в качестве предыдущего распределения означает, что ваше предыдущее распространение будет принимать форму лапласиана или двойного экспоненциального распределения . Это распределение имеет характерный негладкий пик в среднем, который установлен на 0 для достижения редкого эффекта регуляризации. Чтобы непосредственно получить лассо-регуляризованный результат, вы должны выбрать режим вашего апостериорного распределения.

тест

На рисунке синяя пунктирная линия представляет предшествующее распределение Лапласа. Заднее распределение в сплошном черном цвете имеет свою моду в 0 слева со слабой вероятностью, в то время как мода ненулевая справа с высокой вероятностью.

Тем не менее, полное апостериорное распределение не редкое, потому что, если вы берете из него выборку, вы очень редко получаете какое-либо значение, близкое к 0, и фактически, поскольку это непрерывное распределение, вы никогда не получите точно 0.

Чтобы добиться разреженности при использовании подхода лассо, обычно необходимо установить некоторый порог отсечки в заднем режиме. В идеальном случае ваш задний режим равен 0, но вы можете ослабить это и исключить переменную, если его задний режим меньше 0,2 после получения абсолютного значения.

Выполнение этой разбивки под лассо дает определенный набор исключенных и оставленных регрессоров, который является «единственным решением» о том, какие регрессоры включены или исключены.

Полностью байесовский подход к выбору переменных, предшествующий пику и плите, сохраняет неопределенность относительно того, какие переменные должны быть включены или исключены на протяжении всей модели.

Итак, чтобы ответить на ваш первый вопрос:

Являются ли они лучше в том смысле, что они в основном используют метод грубой силы, тестирующий каждое возможное подмножество регрессоров для включения?

Это недоразумение, поскольку ни один из методов не проверяет все возможные поднаборы регрессоров для включения.

Недостаток - время вычислений при этом?

Это также недоразумение, поскольку время вычислений не зависит от грубой силы, тестирующей каждое возможное подмножество регрессоров.

Чтобы прояснить точку зрения Скотта, учитывая некоторые данные, если вы используете штрафной подход к разбросу вероятности, вы получите ровно один набор включенных и исключенных регрессоров. Но если вы используете подход с разбивкой шипов и слябов, у вас будет полное последующее распределение для каждого регрессора, каждый с отдельной вероятностью включения или исключения. Некоторые регрессоры могут иметь шанс 70% быть включенными, другие - 25%. Это может быть предпочтительным во многих приложениях, потому что, учитывая один набор данных, у нас все еще должна быть неопределенность, какие регрессоры важны или нет.

Интуитивно понятно, что предшествующий всплеск и сляб лучше представляют возможное пространство включенных / исключенных регрессоров по сравнению с таким подходом, как лассо, с применением наказания.

— эстет
источник

Большое спасибо! Мое понимание слайдов Скотта было настолько поверхностным и частично неуместным, что вы дали понять!

— Томмазо