Как LASSO выбирает среди коллинеарных предикторов?

Я ищу интуитивно понятный ответ, почему модель GLM LASSO выбирает конкретный предиктор из группы сильно коррелированных и почему это делает иначе, чем выбор лучшего подмножества.

Исходя из геометрии LASSO, показанной на рис. 2 в Tibshirani 1996, я считаю, что LASSO выбирает предиктор с большей дисперсией.

Теперь предположим, что я использую выбор лучшего подмножества с 10-кратным CV, чтобы получить 2 предиктора для модели логистической регрессии, и у меня есть достаточные предварительные знания, что эти 2 предиктора являются оптимальными (в смысле потерь 0-1).

Решение LASSO предпочитает менее экономное (5 предикторов) решение с большей ошибкой прогнозирования. Интуитивно понятно, что вызывает разницу? Это из-за того, как LASSO выбирает среди коррелированных предикторов?

feature-selection lasso

— Петр Сокол
источник

LASSO отличается от выбора лучшего подмножества с точки зрения наказания и зависимости от пути.

При выборе лучшего подмножества предположительно CV использовался для определения того, что 2 предиктора дали лучшую производительность. Во время CV, коэффициенты регрессии полной величины без штрафов были бы использованы для оценки, сколько переменных включить. После того, как было принято решение использовать 2 предиктора, все комбинации 2 предикторов будут параллельно сравниваться на полном наборе данных, чтобы найти 2 для окончательной модели. Этим двум последним предикторам будут даны их коэффициенты регрессии полной величины без штрафов, как если бы они были единственными вариантами выбора с самого начала.

Вы можете думать о LASSO как о том, что начинаете с большого штрафа на сумму величин коэффициентов регрессии, причем штраф постепенно уменьшается. В результате переменные вводятся по одной за раз, причем в каждой точке во время релаксации принимается решение о том, является ли более ценным увеличение коэффициентов переменных, уже имеющихся в модели, или добавление другой переменной. Но когда вы перейдете, скажем, к модели с 2 переменными, коэффициенты регрессии, разрешенные LASSO, будут ниже по величине, чем те же самые переменные, которые были бы у стандартных регрессий без штрафных санкций, используемых для сравнения моделей с 2 и 3 переменными в выбор лучшего подмножества.

Это можно рассматривать как облегчение ввода новых переменных в LASSO, чем при выборе лучшего подмножества. Эвристически LASSO обменивает потенциально более низкие, чем фактические коэффициенты регрессии, на неопределенность того, сколько переменных следует включить. Это может включать в себя больше переменных в модели LASSO и потенциально худшую производительность для LASSO, если вы точно знали, что необходимо включить только 2 переменные. Но если вы уже знаете, сколько переменных предикторов следует включить в правильную модель, вы, вероятно, не будете использовать LASSO.

Ничто до сих пор не зависело от коллинеарности, которая приводит к различным типам произвольности в выборе переменных в лучшем подмножестве по сравнению с LASSO. В этом примере best-subset изучил все возможные комбинации 2 предикторов и выбрал лучшую из этих комбинаций. Так что лучшие 2 для этого конкретного образца данных выигрывают.

LASSO, с его зависимостью от пути добавления одной переменной за раз, означает, что ранний выбор одной переменной может повлиять, когда другие переменные, связанные с ней, войдут позже в процесс релаксации. Также возможно, чтобы переменная вводилась раньше, а затем ее коэффициент LASSO падал при входе других коррелированных переменных.

На практике выбор между коррелированными предикторами в конечных моделях с использованием любого метода сильно зависит от выборки, что можно проверить, повторив эти процессы построения моделей на выборках начальной загрузки тех же данных. Если предикторов не так уж много, и ваш основной интерес заключается в прогнозировании новых наборов данных, регрессия гребня, которая стремится сохранить все предикторы, может быть лучшим выбором.

— магистр педагогических наук
источник