Сначала я отвечу на ваш третий вопрос, а потом на два других.
- Как вы думаете, что он имеет в виду, когда говорит «Лассо (и связанный) ... но не в последнем распределении»?
Эта фигура из его слайдов показывает, что он имеет в виду. Выражение регуляризатора Лассо в качестве предыдущего распределения означает, что ваше предыдущее распространение будет принимать форму лапласиана или двойного экспоненциального распределения . Это распределение имеет характерный негладкий пик в среднем, который установлен на 0 для достижения редкого эффекта регуляризации. Чтобы непосредственно получить лассо-регуляризованный результат, вы должны выбрать режим вашего апостериорного распределения.
На рисунке синяя пунктирная линия представляет предшествующее распределение Лапласа. Заднее распределение в сплошном черном цвете имеет свою моду в 0 слева со слабой вероятностью, в то время как мода ненулевая справа с высокой вероятностью.
Тем не менее, полное апостериорное распределение не редкое, потому что, если вы берете из него выборку, вы очень редко получаете какое-либо значение, близкое к 0, и фактически, поскольку это непрерывное распределение, вы никогда не получите точно 0.
Чтобы добиться разреженности при использовании подхода лассо, обычно необходимо установить некоторый порог отсечки в заднем режиме. В идеальном случае ваш задний режим равен 0, но вы можете ослабить это и исключить переменную, если его задний режим меньше 0,2 после получения абсолютного значения.
Выполнение этой разбивки под лассо дает определенный набор исключенных и оставленных регрессоров, который является «единственным решением» о том, какие регрессоры включены или исключены.
Полностью байесовский подход к выбору переменных, предшествующий пику и плите, сохраняет неопределенность относительно того, какие переменные должны быть включены или исключены на протяжении всей модели.
Итак, чтобы ответить на ваш первый вопрос:
- Являются ли они лучше в том смысле, что они в основном используют метод грубой силы, тестирующий каждое возможное подмножество регрессоров для включения?
Это недоразумение, поскольку ни один из методов не проверяет все возможные поднаборы регрессоров для включения.
- Недостаток - время вычислений при этом?
Это также недоразумение, поскольку время вычислений не зависит от грубой силы, тестирующей каждое возможное подмножество регрессоров.
Чтобы прояснить точку зрения Скотта, учитывая некоторые данные, если вы используете штрафной подход к разбросу вероятности, вы получите ровно один набор включенных и исключенных регрессоров. Но если вы используете подход с разбивкой шипов и слябов, у вас будет полное последующее распределение для каждого регрессора, каждый с отдельной вероятностью включения или исключения. Некоторые регрессоры могут иметь шанс 70% быть включенными, другие - 25%. Это может быть предпочтительным во многих приложениях, потому что, учитывая один набор данных, у нас все еще должна быть неопределенность, какие регрессоры важны или нет.
Интуитивно понятно, что предшествующий всплеск и сляб лучше представляют возможное пространство включенных / исключенных регрессоров по сравнению с таким подходом, как лассо, с применением наказания.