Каковы недостатки использования лассо для выбора переменных для регрессии?


60

Из того, что я знаю, использование лассо для выбора переменных решает проблему коррелированных входных данных. Кроме того, поскольку он эквивалентен регрессии наименьшего угла, он не медленный в вычислительном отношении. Тем не менее, многие люди (например, те, кого я знаю, занимаюсь био-статистикой), все еще предпочитают пошаговый или поэтапный выбор переменных. Есть ли практические недостатки использования лассо, которые делают его неблагоприятным?


9
Я не знаю, откуда вы узнали, что Лассо решает проблему коллинеарности, это абсолютно не так.
Макро

3
Подкова предшествует лучше, чем LASSO для выбора модели - по крайней мере, в случае редкой модели (где выбор модели наиболее полезен). Вы можете найти обсуждение этих пунктов в этой ссылке . Двое из авторов этой статьи также получили аналогичную статью на совещаниях в Валенсии «Байесовская статистика 9»: «Сжатие глобально действует локально: редкая байесовская регуляризация и прогноз». В статье о Валенсии более подробно рассматриваются рамки штрафов.
вероятностная

9
Если вас интересует только прогнозирование, то выбор модели не помогает и обычно причиняет боль (в отличие от квадратичного штрафа = норма L2 = регрессия гребня без выбора переменной). LASSO платит цену в предиктивной дискриминации за попытку выбора переменных.
Фрэнк Харрелл

3
Бросок монеты для принятия произвольного решения часто показывает, что вы действительно заботитесь о результате. Любой метод, который предлагает вам принять решение о выборе предикторов, часто дает понять, что у вас есть идеи о том, какие предикторы более естественно относятся к модели, идеи, которые вы не хотите игнорировать. LASSO может работать так.
Ник Кокс

5
Я второй @Nick: «нет теории, которая могла бы помочь в выборе модели», вряд ли когда-либо будет реалистичной. Здравый смысл - это теория.
Scortchi - Восстановить Монику

Ответы:


29

Нет причин делать пошаговый выбор. Это просто неправильно.

LASSO / LAR - лучшие автоматические методы. Но это автоматические методы. Они позволяют аналитику не думать.

Во многих анализах некоторые переменные должны быть в модели НЕЗАВИСИМО от любой меры значимости. Иногда они являются необходимыми управляющими переменными. В других случаях обнаружение небольшого эффекта может быть существенно важным.


43
«Нет НИКАКОЙ причины делать пошаговый отбор. Это просто неправильно». - Почти никогда не бывает таких невероятно широких утверждений, лишенных контекста, хорошей статистической практики. Если что-то здесь "просто неправильно", это жирное утверждение выше. Если ваш анализ не акцентирует внимание на или оценках параметров (например, прогнозирующих моделях), то пошаговый выбор переменной может быть разумным, и в некоторых случаях он может :: gasp :: outperform LASSO. (Питер, я знаю, что у нас был этот convo прежде - этот комментарий больше адресован будущему читателю, который может только встретить этот пост, а не другой). p
Макро

4
-1 из-за общей критики пошагового. Это не «просто неправильно», но имеет место как поиск детерминированной модели. У вас действительно есть пчела в вашем капоте об автоматических методах.
вероятностная

8
Yi=j=1100Xij+εi
εN(0,1)cor(Xij,Xik)=1/2(j,k)

10
Вам, безусловно, следует изучить коллинеарность, прежде чем приступать к регрессии. Я бы сказал, что если у вас большое количество коллинеарных переменных, вам не следует использовать LASSO или Stepwise; Вам следует либо решить проблему коллинеарности (удалить переменные, получить больше данных и т. д.), либо использовать метод, разработанный для таких задач (например, регрессия гребня)
Питер Флом - Восстановить Монику

5
Хорошо, вы правы, но я не думаю, что это действительно актуально. Ни обратный NOR-лассо (ни какой-либо метод выбора переменных) не решает всех проблем. Есть вещи, которые вы должны сделать, прежде чем начать моделирование, и одна из них - проверка на коллинеарность. Мне также было бы все равно, какой метод выбора переменных работал для других наборов данных, которые нарушали правила регрессии, к которым оба метода должны применяться.
Питер Флом - Восстановить Монику

22

Если вы заботитесь только об ошибке предсказания и не заботитесь о интерпретируемости, случайном выводе, простоте модели, тестах коэффициентов и т. Д., Почему вы все еще хотите использовать модель линейной регрессии?

Вы можете использовать что-то вроде повышения в деревьях решений или поддержки векторной регрессии и получить лучшее качество прогноза и при этом избежать переобучения в обоих упомянутых случаях. То есть Лассо, возможно, не лучший выбор для получения наилучшего качества прогноза.

Если мое понимание верно, Лассо предназначен для ситуаций, когда вы все еще интересуетесь самой моделью, а не только предсказаниями. То есть - смотрите выбранные переменные и их коэффициенты, каким-то образом интерпретируйте и т. Д. И для этого - Лассо может быть не лучшим выбором в определенных ситуациях, как обсуждается в других вопросах здесь.


20

LASSO поощряет уменьшение коэффициентов до 0, то есть отбрасывание этих отклонений от вашей модели. Напротив, другие методы регуляризации, такие как гребень, имеют тенденцию сохранять все изменения.

Поэтому я бы порекомендовал подумать, имеет ли это отбрасывание смысл для ваших данных. Например, рассмотрите возможность проведения клинического диагностического теста либо по данным генного микрочипа, либо по данным колебательной спектроскопии.

  • Вы ожидаете, что некоторые гены несут соответствующую информацию, но многие другие гены - просто шум по отношению. ваше приложение. Отбрасывание этих вариантов - совершенно разумная идея.

  • В отличие от этого, наборы колебательных спектроскопических данных (хотя обычно имеют схожие размеры по сравнению с данными микрочипов), как правило, имеют релевантную информацию, «размазанную» по большей части спектра (корреляция). В этой ситуации запрос регуляризации отбрасывать переменные не является особенно разумным подходом. Тем более что другие методы регуляризации, такие как PLS, более приспособлены к данным этого типа.

Элементы статистического обучения дают хорошее обсуждение LASSO и противопоставляет его другим методам регуляризации.


14

Если два предиктора сильно коррелированы, LASSO может в конечном итоге отбросить один довольно произвольно. Это не очень хорошо, когда вы хотите делать прогнозы для группы населения, где эти два предиктора не имеют сильной корреляции, и, возможно, причина для предпочтения регрессии гребня в этих обстоятельствах.

Вы могли бы также подумать, что стандартизация предикторов (например, когда коэффициенты «большие» или «маленькие») довольно произвольна и озадачена (как и я) разумными способами стандартизации категориальных предикторов.


1
Спасибо за этот ответ. Знаете ли вы какие-либо документы, которые обсуждают проблемы с коррелированными предикторами / категориальными предикторами?
Берк У.

2
Стоит добавить, что существуют другие штрафные методы регрессии, которые пытаются облегчить эти проблемы (например, эластичная сеть).
bdeonovic

Для выбора переменных с высоко коллинеарными переменными итеративный адаптивный гребень (который аппроксимирует штрафную регрессию L0 и s, реализованные в пакете l0ara) имеет тенденцию показывать наилучшие результаты, или штрафы L0L2, как реализовано в пакете L0Learn, также работают хорошо ...
Том Венселерс

9

Лассо полезно только в том случае, если вы ограничиваете себя в рассмотрении моделей, которые являются линейными по параметрам, подлежащим оценке. Другими словами, лассо не оценивает, выбрали ли вы правильную форму отношений между независимой и зависимой (ыми) переменной (ами).

Весьма вероятно, что в произвольном наборе данных могут быть нелинейные, интерактивные или полиномиальные эффекты. Однако эти альтернативные спецификации модели будут оцениваться только в том случае, если пользователь проводит этот анализ; лассо не является заменой для этого.

Для простого примера того, как это может пойти не так, рассмотрим набор данных, в котором непересекающиеся интервалы независимой переменной будут предсказывать чередующиеся высокие и низкие значения зависимой переменной. Сложно будет разобраться, используя обычные линейные модели, поскольку в манифестных переменных, представленных для анализа, нет линейного эффекта (но может быть полезно некоторое преобразование манифестных переменных). Оставленный в его явной форме, лассо неправильно сделает вывод, что эта особенность является посторонней и обнулит его коэффициент, потому что нет никакой линейной связи. С другой стороны, поскольку в данных имеются совмещенные по оси расщепления, древовидная модель, такая как случайный лес, вероятно, будет работать довольно хорошо.

введите описание изображения здесь


5

Одним из практических недостатков лассо и других методов регуляризации является нахождение оптимального коэффициента регуляризации, лямбда. Использование перекрестной проверки для нахождения этого значения может быть таким же дорогим, как и пошаговые методы выбора.


Что вы подразумеваете под "дорогой"?
mark999

4
Это утверждение не совсем верно. Если вы используете поиск по сетке «теплый старт», как в методе glmnet, вы можете очень быстро вычислить всю сетку.
вероятностная

1
@probabilityislogic Правда, о теплых запусках я читаю только после того, как сделал вышеупомянутый комментарий. Что вы думаете об этой статье, которая указывает, что теплый старт медленнее и иногда менее эффективен, чем простая перекрестная проверка? users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/...
rm999

5
λ

5

Я не эксперт LASSO, но я эксперт во временных рядах. Если у вас есть данные временного ряда или пространственные данные, я бы старательно избегал решения, основанного на независимых наблюдениях. Кроме того, если есть неизвестные детерминированные эффекты, которые испортили ваши данные (сдвиги уровней / временные тренды и т. Д.), То LASSO был бы еще менее хорошим молотом. В заключение, когда у вас есть данные временных рядов, вам часто нужно сегментировать данные, когда они сталкиваются с параметрами или дисперсией ошибок, которые меняются со временем.


1
LASSO может обеспечить хорошие показатели прогнозирования при применении к моделям временных рядов на основе регрессии, таким как модели авторегрессии (AR), векторной авторегрессии (VAR) и модели коррекции ошибок вектора (VECM). Например, ищите для авторегрессии лассо вектор, и вы найдете много примеров в научной литературе. По моему собственному опыту, использование LASSO для стационарных моделей VAR обеспечивает превосходную производительность прогнозирования по сравнению со всем выбором поднабора или регуляризацией гребня, тогда как регуляризация гребня превосходит LASSO для интегрированных моделей VAR (из-за мультиколлинеарности, согласно ответу Scortchi).
Ричард Харди

Таким образом, отказ LASSO не присущ данным временным рядам.
Ричард Харди

4

Это уже довольно старый вопрос, но я чувствую, что в то же время большинство ответов здесь довольно устарели (и тот, который проверен как правильный ответ, совершенно неверен imho).

Во-первых, с точки зрения получения хороших результатов прогнозирования не всегда верно, что LASSO всегда лучше, чем пошаговый. В статье «Расширенные сравнения выбора наилучшего подмножества, прямого пошагового выбора и лассо» Хасси и др. (2017) приводится подробное сравнение ступенчатого прямого перехода, LASSO и некоторых вариантов LASSO, таких как расслабленный LASSO, а также лучшего подмножества, и они покажите, что ступенчато иногда лучше, чем LASSO. Хотя вариант LASSO - расслабленный LASSO - был тем, который произвел наивысшую точность прогнозирования модели в самом широком диапазоне обстоятельств. Заключение о том, что лучше, во многом зависит от того, что вы считаете лучшим, хотя, например, будет ли это самой высокой точностью прогнозирования или выбора наименьшего количества ложноположительных переменных.

Существует целый зоопарк редких методов обучения, большинство из которых лучше, чем LASSO. Например , есть Meinhausen в расслабилась ЛАССО , адаптивный ЛАССО и SCAD и MCP нарушает регресс как это реализовано в ncvregпакете, причем все они имеют меньше уклон , чем стандартный LASSO и так preferrable. Кроме того, если вас интересует абсолютное разреженное решение с наилучшей эффективностью прогнозирования, тогда L0 штрафует регрессию (или лучшее подмножество, т.е. основано на штрафовании nr ненулевых коэффициентов, а не сумме абсолютного значения коэффициентов в LASSO) лучше, чем LASSO, см., например, l0araпакет, который аппроксимирует L0-штрафные GLM с использованием итеративной процедуры адаптивного гребняи который, в отличие от LASSO, также очень хорошо работает с высококоллинеарными переменными и L0Learnпакетом , который может соответствовать моделям регрессии с штрафом L0, использующим снижение координат , потенциально в сочетании с штрафом L2 для регуляризации коллинеарности.

Итак, вернемся к исходному вопросу: почему бы не использовать LASSO для выбора переменных? :

(1) потому что коэффициенты будут сильно смещены, что улучшено в расслабленной регрессии LASSO, MCP и SCAD и полностью разрешено в регрессивной штрафной регрессии L0 (которая имеет свойство полного оракула, то есть она может выбирать как причинные переменные, так и повтор) несмещенные коэффициенты, также для p> n случаев)

(2) потому что он имеет тенденцию давать намного больше ложных срабатываний, чем регрессия, оштрафованная на L0 (в моих тестах он l0araработал лучше всего, то есть итеративный адаптивный гребень, за которым следует L0Learn)

(3) потому что он не может хорошо справляться с коллинеарными переменными (он, по сути, просто выбирает одну из коллинеарных переменных) - итеративный адаптивный гребень / l0araи штрафы L0L2 L0Learnгораздо лучше справляются с этим.

Конечно, в общем случае вам все равно придется использовать перекрестную проверку для настройки параметров регуляризации для получения оптимальной производительности прогнозирования, но это не проблема. Кроме того, вы можете сделать высокоразмерный вывод для ваших параметров и рассчитать 95% доверительные интервалы для ваших коэффициентов, если хотите, с помощью непараметрической начальной загрузки (даже принимая во внимание неопределенность в выборе оптимальной регуляризации, если вы выполняете перекрестную проверку также для каждого набора начальной загрузки). хотя это становится довольно медленным тогда).

В вычислительном отношении LASSO подходит не медленнее, чем пошаговые подходы, между прочим, конечно, нет, если для оптимизации регуляризации LASSO используется высокооптимизированный код, который использует теплые запуски (вы можете сравнить себя, используя fsкоманду для пошагового lassoперехода вперед и для LASSO в bestsubsetпакете). Тот факт, что поэтапные подходы все еще популярны, вероятно, связан с ошибочным мнением многих о том, что можно просто сохранить свою окончательную модель и сообщить о связанных с ней значениях p, что на самом деле неправильно, поскольку этого не происходит. учитывайте неопределенность, обусловленную выбором вашей модели, что приводит к слишком оптимистическим значениям p.

Надеюсь это поможет?


0

Одна большая проблема заключается в сложности проверки гипотез. Вы не можете легко понять, какие переменные являются статистически значимыми с Лассо. С помощью ступенчатой ​​регрессии вы можете до некоторой степени проводить проверку гипотез, если вы внимательно относитесь к множественному тестированию.


8
Я бы сказал, что это преимущество, а не недостаток. Это останавливает вас от того, что вы, вероятно, не должны делать.
Питер Флом - Восстановить Монику

@Peter: почему? Я предполагаю, что вы правильно исправили бы множественное тестирование и т. Д. Так, чтобы полученные значения P были действительными.
дсимча

10
действительно нет способа правильно исправить множественное тестирование в пошаговом режиме. См., Например, стратегии моделирования Harrell Regression. Там нет никакого способа узнать правильное исправление
Питер Флом - Восстановить Монику

4
Это правда, что сложность проведения проверки гипотез является потенциальным недостатком LASSO. Неверно, что это является недостатком поэтапной регрессии.
gung - Восстановить Монику

2
Что ж, есть структура выборочного вывода (реализованная в пакете selectedInference) для вывода (после выбора) для LASSO ... Или для любого метода выбора переменных можно использовать непараметрическую загрузку, чтобы сделать вывод и получить доверительные интервалы для ваших оценок параметров. ..
Том Венселерс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.