В какой настройке вы ожидаете, что модель, найденная LARS, будет наиболее отличаться от модели, найденной при исчерпывающем поиске?

Немного больше информации; Предположим, что

вы знаете заранее, сколько переменных выбрать и что вы установили штраф за сложность в процедуре LARS, чтобы иметь ровно столько переменных с ненулевыми коэффициентами,
вычислительные затраты не являются проблемой (общее количество переменных мало, скажем, 50),
что все переменные (у, х) непрерывны.

В какой настройке модель LARS (т. Е. Подгонка OLS тех переменных, которые имеют ненулевые коэффициенты в подгонке LARS) будет наиболее отличаться от модели с тем же числом коэффициентов, но найденной с помощью исчерпывающего поиска (a la regsubsets ())?

Редактировать: я использую 50 переменных и 250 наблюдений с реальными коэффициентами, взятыми из стандартного гауссиана, за исключением 10 переменных, имеющих «реальные» коэффициенты 0 (и все особенности сильно коррелируют друг с другом). Эти настройки явно не хороши, так как различия между двумя наборами выбранных переменных незначительны. Это действительно вопрос о том, какой тип конфигурации данных следует моделировать, чтобы получить наибольшее количество различий.

regression model-selection

— user603
источник

Ответы:

Вот описание алгоритма LARS: http://www-stat.stanford.edu/~tibs/lasso/simple.html Он как бы игнорирует корреляцию между регрессорами, поэтому я рискну предположить, что он может пропустить подгонка в случае мультиколлинеарности.

— Alex
источник

вот что мотивирует мой вопрос на самом деле. Я смоделировал настройки с 50 переменными, где наибольшее значение vif превышает 30, и я все еще вижу очень мало различий (например, с точки зрения R ^ 2 выбранных моделей) между двумя подходами.

— user603

Я сам нашел разные ответы с помощью stepAIC и lars и предположил, что моя проблема должна рассматриваться с помощью группы LASSO - речь идет не о VIF всей матрицы, а о ряде кластеров коррелированных переменных.

— Алекс

Интересно ... как вы генерируете такие данные? (т.е. с кластерами коррелированных переменных)

— user603

Соберите воедино несколько независимых групп с корреляцией внутри них. Мне самому задают кучу одних и тех же вопросов о ряде брендов - людям нравится марка по своему выбору и не нравятся другие.

— Алекс

Чем больше у вас функций по отношению к количеству выборок, тем больше вы сможете получить более точную аппроксимацию с помощью метода исчерпывающего поиска, чем с LARS. Термин наказания, используемый в LARS, налагает вложенную структуру все более сложных моделей, индексируемых одним параметром регуляризации, поэтому «степени свободы» выбора признаков с помощью LARS довольно низки. Для исчерпывающего поиска фактически существует одна (двоичная) степень свободы на элемент, что означает, что при исчерпывающем поиске лучше использовать случайную изменчивость в критерии выбора признаков из-за случайной выборки данных. В результате модель исчерпывающего поиска, скорее всего, будет строго соответствовать критерию выбора признаков, поскольку «класс гипотез» больше.

— Дикран Сумчатый
источник

Ваш ответ кажется не связанным с моим вопросом. Чтобы было ясно: мне действительно интересно генерировать ситуации, в которых подмножество переменных, выбранных в качестве активных в LARS, будет наиболее отличаться от тех, которые выбраны в результате исчерпывающего поиска, причем это измеряется, скажем, разницей в R ^ 2 между моделью LARS и модель исчерпывающего поиска с тем же номером активной переменной . Можете ли вы вспомнить какой-либо случай противника, где эта разница будет большой? Можете ли вы перефразировать ваш ответ в этих терминах?

— user603

Мой ответ напрямую связан с вашим вопросом. Степень перенастройки контролируется не только количеством признаков, но и значениями весов. Таким образом, возможно переоснащение без использования дополнительных функций. LARS накладывает штраф на величину весов, поэтому он не выбирает функции, которые только уменьшают квадратные потери за счет весов большой величины, поэтому он менее склонен к переоснащению. Исчерпывающие методы поиска - это, в основном, рецепт для подбора, так что вы получите очень разные решения в ситуациях, когда может произойти перебор.

— Дикран Сумчатый

Хорошо, я понял вашу точку зрения: это происходит от того, что я затмил в своем первоначальном вопросе (и, надеюсь, теперь стал более понятным). Я действительно сравниваю яблоко с яблоками здесь (т.е. выбранные модели), или, другими словами, (R ^ 2 из) OLS подходят с использованием переменных, выбранных LARS, и (R ^ 2 из) OLS подходят с использованием этих Переменные, выбранные путем тщательного поиска. Я не использую напрямую коэффициенты LARS ....

— user603

Это не ортогонально, одна модель вряд ли будет лучше другой, не будучи другой. В ситуациях, когда возможна чрезмерная подгонка, модель, основанная на исчерпывающем поиске, вероятно, будет нестабильной, то есть, если вы соберете 500 различных выборок, вы, вероятно, получите другой набор функций. LARS, с другой стороны, скорее всего, будет более стабильным. То, может ли 50 элементов и 500 образцов привести к переобучению, зависит от природы набора данных, но это, безусловно, возможно. Исчерпывающий поиск может выбрать особенности, которые объясняют изменчивость, характерную для этого образца; LARS меньше так.

— Дикран Сумчатый

Это может помочь, если бы вы могли объяснить, почему вы хотите это сделать. Я подозреваю, что вам нужно посмотреть на величину весов истинной модели, а также распределения данных. Модели регрессионного наказания (LASSO, LARS, сеть Элариса, регрессия гребня) имеют априор относительно ожидаемого распределения весов, поэтому, если у вас есть набор данных, где он недопустим, это может быть хорошим началом.

— Дикран Сумчатый